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TensorFlow 7 4352s Fl FP AC TRE ESS, the HARFA H 
主流 框架 之 一 。 本 书 从 深度 学 习 的 基础 讲 起 ， 深 入 TensorFlow 框 架 原 
理 、 模 型 构建 、 源 代码 分 析 和 网 络 实现 等 各 个 方面 。 全 书 分 为 基础 篇 、 
实战 篇 和 提高 篇 三 部 分 。 基 础 篇 讲解 人 工 智能 的 入 门 知 识 ， 深 度 学 习 的 
方法 ，TensorFlow 的 基础 原理 、 系 统 架 构 、 设 计 理 念 、 编 程 模型 、 和 常用 
API、 批 标准 化 、 模 型 的 存储 与 加 载 、 队 列 与 线程 ， 实 现 一 个 自 定 义 操 
作 ， 并 进行 TensorFlow 源 代码 解析 ， 介 绍 卷 积 神经 网 络 CCNNO 和 循环 
神经 网 络 (RNN) 的 演化 发 展 及 其 TensorFlow 实 现 、TensorFlow 的 高 级 
框架 等 知识 ; 实战 篇 讲解 如 何 用 TensorFlow 写 一 个 神经 网 络 程序 并 介绍 
TensorFlow 实 现 各 种 网 络 (CNN、RNN 和 自 编码 网 络 等 ) ， 并 对 
MINIST 数 据 集 进行 训练 ， 讲 解 TensorFlow 在 人 脸 识 别 、 自 然 语言 处 
理 、 图 像 和 语音 的 结合 、 生 成 式 对 抗 网 络 等 方面 的 应 用 ; 提高 篇 讲解 
TensorFlow 的 分 布 式 原 理 、 架 构 、 模 式 、API， 还 会 介绍 TensorFlow 
XLA、TensorFlow Debugger、TensorFlow 和 Kubernetes 结 合 、 
TensorFlowOnSpark、TensorFlow 移 动 端 应 用 ， 以 及 TensorFlow 
Serving. TensorFlow Fold 和 TensorFlow 计 算 加 速 等 其 他 特性 。 最 后 ， 附 
录 中 列 出 一 些 可 供 参 考 的 公开 数据 集 ， 并 结合 作者 的 项 目 经 验 介绍 项 目 
管理 的 一 些 建议 。 

















本 书 深 入 浅 出 ， 理 论 联 系 实际 ， 实 战 案例 新 颖 ， 基 于 最 新 的 
TensorFlow 1.1 版 本 ， 涵 盖 TensorFlow 的 新 特性 ， 非 常 适合 对 深度 学 习 和 
TensorFlow 感 兴趣 的 读者 阅读 。 


HE 





今天 深度 学 习 已 经 渗透 到 互联 网 技术 和 产品 的 方方面面 ， 它 从 学 术 
界 的 一 个 研究 课题 变 成 了 被 工业 界 最 广泛 应 用 的 关键 技术 。 对 于 每 一 个 
程序 员 ， 我 认为 都 应 该 或 多 或 少 了 解 和 掌握 深度 学 习 。 对 于 初学 者 来 
说 ， 从 TensorFlow 入 手 是 很 好 的 起 点 。TensorFlow 有 谷歌 的 强大 文 持 ， 
并 且 有 广泛 的 社区 。 








本 书 的 作者 李 台 政 曾 是 百度 的 一 名 优秀 工程 师 ， 一 位 非常 勤奋 的 女 
生 。 她 在 工作 之 余 致 力 于 人 工 智能 的 研究 ， 对 深度 学 习 框架 的 架构 、 应 
用 及 编程 进行 深入 钻研 ， 并 利用 深度 学 习 做 图 像 处 理 、 情 感 分 析 、 文 本 
挖掘 等 项 目 。 更 为 难得 的 是 ， 她 在 索 忙 的 工作 之 外 积极 创建 TensorFlow 
及 深度 学 习 交 流 社 区 ， 同 时 也 活跃 于 国内 各 大 技术 社区 。 这 本 书 更 是 她 
投入 了 很 多 个 不 眠 之 夜 编写 而 成 。 








鉴于 这 样 的 背景 ， 我 认为 这 本 书 非常 适合 希望 入 门 深度 学 习 的 程序 
员 。 他 们 可 以 将 本 书 作为 一 本 入 门 和 实践 的 书籍 阅读 。 读 者 可 以 从 本 书 
中 了 解 基 本 的 深度 学 习 原 理 、 典 型 的 模型 、 大 量 的 TensorFlow 源 代码 以 
及 成 功 的 应 用 范例 。 从 本 书 出 发 ， 读 者 可 以 循序 渐进 ， 逐 步 深 入 ， 在 工 
作 实践 中 加 以 运用 ， 领 略 深 上 度 学 习 的 美妙 。 
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地 平 线 机 器 人 创始 人 ， 前 百度 深度 学 习 实验 室 主任 


绿 起 


2017 年 2 月 ，TensorFlow 的 首届 开发 者 峰会 〈2017 TensorFlow Dev 
Summit) 在 美国 的 加 利 福 尼 亚 州 举行 。 在 会 上 ， 和 谷歌 公司 宣布 正式 发 布 
TensorFlow 1.0 版 本 。 本 书 束 是 基于 最 新 的 1.1.0 版 本 来 介绍 TensorFlow 的 
技术 解析 和 实战 。 





人 工 智 能 大 潮 来 了 。2016 年 ，AlphaGo 击 败 围 棋 大 师 李 世 石 后 ， 人 
工 智能 的 应 用 仿佛 一 夜 之 间 过 地 开花 。 在 科技 潮流 的 大 环境 中 ， 现 在 硅 
谷 的 用 人 单位 越 来 越 倾 癌 于 雇用 既 懂 理论 〈 思 考 者 ) 叉 懂 编 程 (执行 
者 ) 的 工程 师 。 思 考 者 的 日 营 工 作 是 阅读 文献 以 求 产 生 思 路 ， 而 执行 着 
则 是 编写 代码 来 实现 应 用 。 但 是 要 成 为 一 名 真正 的 工程 师 ， 学 习 机 需 学 
习 是 将 思考 者 和 执行 者 相 结合 的 最 快 途径 。 





众所周知 ， 人 工 智 能 是 高 级 计算 智能 最 宽泛 的 概念 ， 机 器 学 习 是 研 
究 人 工 智 能 的 一 个 工具 ， 深 度 学 习 是 机 器 学 习 的 一 个 子 集 ， 是 目前 研究 
领域 卓有成效 的 学 习 方 法 。 深 度 学 习 的 框架 有 很 多 ， 而 TensorFlow 将 神 
经 网 络 、 算 法 这 些 平时 停留 在 理论 层面 的 知识 ， 组 织 成 一 个 平台 框架 ， 
集合 了 神经 网 络 的 各 个 算法 函数 组 成 一 个 工具 箱 ， 让 广大 工程 师 可 以 专 
心 建 造 自己 的 目标 领域 的 “轮子 ”， 而 且 TensorFlow 是 基于 Python 语言 
的 ， 极 易 上 手 ， 这 些 优势 迅速 吸引 了 全 世界 的 工程 师 。 








我 兽 经 也 是 一 名 前 后 端 开 发 工程 师 ， 更 专注 于 后 端 工 程 方向 ， 而 淤 
心 研 究 深 度 学 习 和 TensorFlow 后 ， 我 被 TensorFlow 深 深 地 迷 住 了 。 我 发 
现 它 对 各 行 各 业 将 会 有 很 深远 的 影 响 ， 并 旦 会 大 大 地 解放 劳动 力 。 











与 传统 工程 师 的 主要 工作 一 一 实现 产品 需求 或 者 设计 高 可 用 性 架构 
不 同 ， 深 度 学 习 让 人 总 结 和 抽象 人 类 是 怎样 理解 和 看 竺 问题 的 ， 并 把 这 
种 方式 教 给 机 器 。 例 如 ， 在 AlphaGo 的 研究 中 ， 人 们 需要 先 抽象 出 人 类 
思考 围棋 的 方式 ， 然 后 将 这 种 方式 抽象 成 算法 ， 并 且 配 合 人 类 大 脑 构造 
中 神经 网 络 的 传输 来 实现 这 些 算法 。 这 时 ， 工 程 师 不 会 再 写实 现 业 务 需 
求 的 逻辑 代码 ， 而 是 深度 学 习 中 将 神经 网 络 的 “ 黑 盒 "和 模型 效果 非常 好 
却 缺 乏 “ 可 解释 性 ”的 特性 相 结 合 ， 在 次 次 实验 中 尽量 找 出 规律 。 记 得 美 
国 前 总 统 肯 尼 迪 在 宣布 登 月 计划 时 曾 说 : “我 们 选择 去 月 球 ， 不 是 因为 
它 简 单 ， 而 是 因为 它 困 难 。” 今 天 ， 我 相信 ， 所 有 致力 于 人 工 智 能 方向 
的 工程 师 之 所 以 自 聚 地 去 研究 ， 也 不 是 因为 它 简 单 ， 而 是 因为 它 困难 。 
我 们 研究 它 ， 是 因为 立足 于 现在 这 个 点 往 前 看 ， 我 们 看 不 到 已 经 建 好 的 
高 楼 大 厦 ， 看 到 的 是 一 片 等 待 我们 去 有 发掘 的 空 上 的 大 地 ， 而 这 个 发 掘 过 
需要 的 是 十 足 的 远见 、 决 心 、 勇 气 和 信心 。 
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我 在 学 习 的 过 程 中 ， 由 于 深度 学 习 的 资料 英文 的 导 多 ， 在 理解 上 走 
了 不 少 弯路 。 我 把 学 到 的 知识 和 原理 用 心 整理 并 用 文字 表述 出 来 ， 写 成 
这 本 书 ， 硕 望 能 帮助 没有 接触 过 深度 学 习 的 广大 程序 员 迅 速 上 手 ， 而 不 
再 被 英文 阅读 理解 挡 在 门 外 。 说 实话 ，TensorFlow 的 文档 以 及 API 接 口 
是 比较 抽象 的 ， 再 加 上 有 一 些 从 工程 方 回转 入 深度 学 习 的 人 以 前 没有 过 
深度 学 习 的 经 验 ， 所 以 如 果 带 着 工程 类 程序 研发 的 思维 去 学 习 ， 甚 至 是 
实现 业务 逻辑 需求 的 思维 去 学 习 ， 效 果 会 很 震 。 我 希望 这 本 书 能 为 读者 
呈现 一 个 通俗 易 全 、 形 象 生动 的 TensorFlow， 使 读者 迅速 走 入 深度 学 习 














的 世界 。 


在 本 书 的 写作 过 程 中 ， 为 了 能 充分 挤 出 时 间 ， 深 夜 当 我 困 仅 时 ， 我 
常常 让 目 己 以 最 不 舒服 的 方式 入 睡 ， 希望 能 尽量 少 睡 ， 以 此 增加 仔细 和 钼 
研 的 时 间 。 有 时 我 还 会 打开 电视 ， 将 音量 设置 为 静音 ， 感 受 房 间 中 电视 
背景 光 闪 烁 的 动感 ， 以 此 提醒 目 己 时 间 的 流动 。 刚 开始 我 会 坐 在 工作 台 
前 写作 ， 累 了 又 会 抱 着 笔记 本 坐 在 床上 继续 写作 ， 有 时 会 写 着 写 着 不 知 
不 党 地 睡 着 ， 凌 晨 三 四 点 钟 又 醒 来 ， 感 受 黑夜 里 的 那 片 安宁 ， 心 情 顿时 
平静 ， 再 次 投入 到 钻研 中 。 每 每 有 灵感 ， 都 非常 激动 ;每 每 再 次 深入 一 
个 概念 ， 增 删 易 称 ， 把 原理 有 逼近 真相 地 讲 透 ， 都 让 我 非常 有 成 就 感 。 





























面向 的 读者 


我 素来 不 爱 探究 数学 公式 的 推导 原理 ， 对 符号 也 很 茫然 ， 只 是 在 必 
须要 用 时 才 对 这 些 公式 进行 详细 的 推导 ， 但 是 我 却 对 这 些 原理 在 应 用 层 
面 如 何 使 用 出 奇 地 感 兴 趣 。 本 书 的 目标 就 是 融 读 者 进入 造 “ 应 用 轮子 ”的 
大 门 。 我 会 以 最 少 的 数学 公式 讲 清楚 如 何 用 TensorFlow 实 现 CNN、 
RNN， 如 何在 实战 中 使 用 TensorFlow 进 行 图 片 分 类 、 人 脸 识 别 和 自然 语 
言 处 理 等 ， 以 及 如 何 将 想 训练 的 数据 、 想 实现 的 应 用 杀手 做 出 来 。 








同时 ，Python 语 言 是 一 门 相当 高 级 的 语言 ， 有 “可 执行 的 伪 代 码 ” 的 
美誉 ， 可 以 用 极 少 的 代码 行 去 完成 一 个 复杂 的 功能 ， 同 时 Python 还 有 极 
为 丰富 的 第 三 方 库 ， 让 全 世界 很 多 工程 师 的 开发 工作 变 得 异常 简单 。 
TensorFlow 是 用 Python 语 言 实 现 的 框架 ， 对 很 多 学 生来 说 非常 容易 上 
手 ， 当 然 ， 如 果 是 有 开发 经 验 的 工程 师 ， 就 更 容易 学 会 。 如 果 说 设计 神 
经 网 络 模型 像 是 盖 一 栋 大 楼 ， 那 么 TensorFlow 强 大 的 API 用 起 来 会 让 人 
感觉 就 像 搭 积木 一 样 容易 。 因 此 ， 人 懂 点 儿 Python， 即 便 不 怎么 懂 数 学 和 
算法 原理 也 没关系 ， 尽 管 跟着 我 一 起 学 便 是 。 





在 翻译 学 上 有 一 个 概念 叫 作 “平行 语料库 ?， 这 个 概念 来 自制 作 于 公 
元 前 196 年 的 古 埃 及 罗 塞 塔 石碑 ， 石 碑 上 用 希腊 文字 、 上 古 埃 及 文字 和 当 
时 的 通俗 体 文 字 刻 了 同样 的 内 容 。 在 本 书 进行 某 个 概念 的 讲解 时 ， 虽 然 
是 用 Python 代码 作 示 范 ， 但 TensorFlow 前 端 开 发 同时 也 支持 多 种 上 层 话 
言 ， 本 书 讲解 过 程 中 也 会 兼顾 到 用 C++、Java、Go 语 言 做 开发 的 读者 。 








我 希望 ， 本 书 成 为 不 同 领域 的 读者 进入 人 工 智能 领域 的 “ 垫 脚 石 ”， 


也 希望 所 有 的 读者 在 人 生路 上 能 利用 TensorFlow 这 个 工具 大 放 异 彩 。 


我 有 很 重 的 强迫 症 ， 因 此 ， 在 编写 本 书 的 过 程 中 ， 阅 读 了 国内 外 很 
多 与 TensorFlow 相 关 的 资料 ， 对 本 书 的 目录 结构 和 框架 经 过 很 多 次 反复 
琢磨 和 调整 ， 在 写 完 之 后 ， 我 义 从 头 到 尾 地 读 过 好 几 裔 ， 并 且 和 了 人 解 
TensorFlow 不 同方 面 的 人 反复 交流 ， 根 据 建议 又 反复 修改 。 这 一 切 束 是 
锅 望 它 能 通俗 易 懂 ， 把 读者 快速 领 入 深度 学 习 的 大 门 。 











这 局 门 的 背后 是 异彩 纷呈 的 ， 身 怀 这 门 技艺 的 人 是 应 该 非常 自 险 
的 ， 但 这 届 门 的 背后 也 是 非常 辛 吾 的 ， 有 时 数据 需要 自己 去 想 办 法 解 
决 ， 还 需要 每 天 看 论文 ， 知 晓 最 新 科研 成 末 ， 给 目 己 以 局 发 ， 反 复 地 做 
实验 ， 研 究 算法 和 模型 ， 寻 求 提升 和 解决 方法 ， 经 常会 遇 到 在 很 长 一 段 
时 间 没 有 思路 的 情况 。 但 是 ， 只 要 做 的 东西 是 开创 的 ， 令 人 称赞 的 ， 就 
会 开心 地 盏 受 这 个 过 程 。 





我 专 为 本 书 读者 建立 了 一 个 QQ 交流 群 (3204201300 ， 和 希望 在 群 里 
与 大 家 深入 讨论 和 交流 学 习 过 程 中 遇 到 的 问题 ， 也 希望 与 大 家 分 享 最 新 
的 研究 成 果 。 
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[1] Jeff Dean 的 邮件 原文 是 : “It’s great that you've written a book about 
TensorFlow. I hope you enjoyed the experience in learning about TensorFlow 
and how to accomplish various tasks. I'm glad that you’re making your book 


available for the Chinese speaking community." o 
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著名 历史 学 家 斯 塔 夫 里 阿 诡 斯 在 《全 球 通史 》 中 ， 曾 以 15 世 纪 的 航 
海 在 “物理 上 ”连通 “各 大 洲 ” 作 为 标志 将 人 类 历史 划分 为 两 个 阶段 。 在 我 
正在 写作 的 《互联 网 通史 》 中 ， 我 把 互联 网 这 个 “信息 上 ?连通 “人 类 个 
体 ” 的 物件 作为 划分 人 类 历史 的 标志 。 而 随 着 人 工 智 能 最 近 的 崛起 ， 我 
们 又 该 思考 重新 划分 了 ， 因 为 人 工 智能 将 会 在 “信息 上 ”连通 “各 个 物 
体 "。 到 那 时 各 个 物体 都 有 "智能 "， 如 智能 汽车 、 智 能 电视 、 扫 地 机 器 
人 、 智 能 音 啊 等 知 能 家 居 ， 想 象 极度 的 智能 下 ， 屋 子 里 的 电器 和 家 居 都 

可 能 和 我 们 有 简单 的 交互 。 











深度 学 习 领 域 之 所 以 异 苗 突起 ， 是 因为 传统 的 研发 思维 ， 如 染 构 、 
组 件 化 、 大 规模 并 发 、 存 储 与 计算 等 ， 已 经 是 技术 红海 了 ， 而 每 位 工程 
师 都 应 该 学 习 机 器 学 习 ， 是 因为 它 融 给 工程 师 全 新 的 开发 思维 ， 工 程 师 
可 以 用 自己 的 代码 让 机 器 更 加 “聪明 ”。 
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有 人 说 ， 人 工 智能 在 世界 范围 的 流行 ， 是 因为 那 盘 围棋 。2016 年 3 
月 ， 谷 歌 公司 的 AlphaGo 回 韩国 棋院 围棋 九段 大 师 李 世 石 发 起 挑战 ， 而 
这 棋局 走 法 的 可 能 性 有 361! 种 ， 最 终 AlphaGo 战 胜 了 这 场 “ 棋 局 数 比 可 见 
宇宙 中 的 原子 数 还 多 ”的 智力 游戏 。2015 年 11 月 9 日 〈 在 距 这 场 比 赛 前 4 
个 月 ) ， 谷 歌 公 司 开源 了 它 的 第 二 代 深 度 学 习 系 统 TensorFlow， 也 就 是 
AlphaGo 的 基础 程序 。 





什么 是 人 工 智能 (artificial intelligence, AID ? 要 了 解 这 个 问题 ， 
zn 


( 
我 们 先 来 看 看 人 工 智能 的 几 个 应 用 。 
1. 微软 小 冰 


相信 很 多 朋友 手机 里 都 有 关注 “微软 小 六 ”的 公众 写 ， 这 是 微软 ( 亚 
洲 ) 互联 网 工程 院 的 一 球 人 工 乔 能 伴侣 虚拟 机 费 人 ， 跟 它 聊 天 时 你 会 发 
现 ， 小 冰 有 时 回答 得 非常 切中 你 的 心意 ， 而 有 时 逻辑 上 表达 却 有 点 儿 对 
不 上 上 下 文 ， 所 以 你 党 得 它 时 而 回答 得 不 错 像 人 ， 时 而 又 一 眼看 罕 它 古 
个 机 器 人 。 这 种 能 否 判断 对 方 完 竟 是 人 还 是 机 器 人 的 思维 实验 ， 叫 
作 “ 图 灵 测 试 ”。 








图 灵 测 试 是 计算 机 科学 之 父 瑞 国人 艾 伦 :图 灵 提 出 的 ， 这 是 一 种 测 
试 机 器 是 否 具 备 人 类 智能 的 方法 。 图 灵 设 计 了 一 种 “模仿 游戏 ”， 远 处 的 
人 在 一 段 规定 的 时 间 内 ， 根 据 两 个 实体 一 一 电脑 和 人 类 对 他 提出 的 各 种 
问题 来 判断 对 方 是 人 类 还 是 电脑 。 UJ 具体 过 程 如 图 1-1 所 示 。C 向 A 和 B 
提出 问题 ， 由 C 来 判断 对 方 是 人 类 还 是 电脑 。 通 过 一 系列 这 样 的 测试 ， 
从 电脑 被 误 判 断 为 人 的 概率 就 可 以 测 出 电脑 的 智能 程度 ， 电 脑 越 被 误 判 
成 人 人， 说 明智 能 程度 就 越 高 。 
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图 1-1 
这 种 情感 对 话 能 力 就 是 人 工 智 能 的 一 个 方向 。 而 现在 微软 小 冰 更 
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可 以 通过 文本 、 图 像 、 视 频 和 语音 与 人 类 展开 交流 ， 逐 渐 具 备 能 看 、 能 
听 和 能 说 的 各 种 人 工 智能 感官 ， 并 且 能 够 和 人 类 进行 双 同 同步 交互 。 





2. 人 脸 识 别 








现在 许多 电脑 开机 密码 、 文 付 宝 的 刷 脸 支付、 客流 的 闸 机 通行 都 有 
采用 人 上 脸 识别 拉 术 。 目 前 市 面 上 也 有 许多 人 脸 识别 考勤 机 。 很 多 公司 已 
经 采用 了 人 脸 闸 机 打卡 签到 技术 ， 当 有 人 有 刷 脸 打 卡 签到 时 ， 识 别 出 这 个 
人 的 面部 特征 ， 考 勤 机 会 将 其 与 公司 的 员工 信息 进行 比 对 ， 完 成 号 份 识 





别 ， 确 认 后 ， 便 可 开 闻 放行 。 


更 进一步 讲 ， 人 脸 识 别 中 还 可 以 识别 出 人 物 的 年 龄 、 性 别 、 是 否 佩 
戴 眼 镜 、 是 否 有 笑容 、 情 绪 欢 乐 或 悲伤 ， 以 及 眼睛 、 和 描 子 、 嘴 等 关键 部 
位 ， 这 就 是 人 脸 关 键 点 检测 。 图 1-2 就 是 人 脸 关 键 点 检测 的 一 个 示例 。 














图 1-2 


国内 有 一 些 公司 在 人 脸 识别 上 已 经 达到 了 先进 水 平 ， 如 云 从 科技 、 
旷 视 科技 、 商 汤 科 技 等 。 旷 视 科技 的 Face++ 有 目前 世界 一 流 的 人 脸 追 
足 、 识 别 、 分 析 等 服务 应 用 ， 面 癌 开 发 者 的 云 平台 及 API、SDK， 已 经 
可 以 直接 调用 。 





以 上 是 人 工 智能 应 用 的 两 个 例子 。 百 度 百 科 上 给 出 的 人 工 智 能 的 解 
释 是 :“ 它 是 研究 、 开 发 用 于 模拟 、 延 伸 和 扩展 人 的 智能 的 理论 、 方 
法 、 技 术 及 应 用 系统 的 一 门 新 的 技术 科学 。 人 工 智能 是 计算 机 科学 的 一 
个 分 文 ， 它 企图 了 解 智能 的 实质 ， 并 生产 出 一 种 新 的 能 以 人 类 智能 相似 
的 方式 做 出 反应 的 智能 机 絮 ， 该 领域 的 研究 包括 机 器 人 、 语 言 识别 、 图 
像 识 别 、 自 然 语言 处 理 和 专家 系统 等 。” 口 











简 而 言 之 ， 人 工 智能 就 是 研究 用 计算 机 来 实现 人 类 的 智能 ， 例 如 ， 
去 模仿 人 类 的 知觉 、 推 理 、 学 习 能 力 等 ， 从 而 让 计算 机 能 够 像 人 一 样 思 
考 和 行动 ， 有 图 像 识别 (机 器 识别 出 猫 猎狗 狗 〉、 人 机 对 话机 器 感知 
到 人 类 的 语义 和 情感 ， 并 给 出 反馈 ) s ERANA (AlphaGo, 
Master 等 让 机 器 自己 思考 去 下 棋 ) 等 。 





国际 上 的 谷歌 、 华 果 、 亚 马 逊 、 微 软 等 巨大 公司 都 在 “两 条 腿 走 
路 ”， 一 方面 在 做 研发 项 目 ， 如 “谷歌 大 脑 ”(Google Brain) ， 另 一 方面 
同时 发 力 智能 家 居 ， 如 “Google Home 智 能 音箱 ”， 和 希望 把 设备 当成 人 来 
交流 。 国 内 的 阿里 、 腾 讯 、 百 度 、 搜 狗 、 地 平 线 等 公司 以 及 很 多 不 同 领 
域 的 创业 公司 也 都 在 积累 的 大 量 数据 上 上， 开始 尝试 训练 出 高 效 的 模型 ， 
不 断 优化 业务 指数 。 


那么 ， 机 器 是 如 何 实现 人 类 的 智力 的 呢 ? 其 实 ， 机 器 主要 是 通过 大 
量 的 训练 数据 进行 训练 ， 程 序 不 断 地 进行 自我 学 习 和 修正 来 训练 出 一 个 
模型 ， 而 模型 的 本 质 就 是 一 堆 参 数 ， 用 上 王 万 、 上 亿 个 参数 来 描述 业务 
的 特点 ， 如 “人 脸 ”“ 房 屋 地 段 价 格 ”“ 用 户 画 像 * 的 特点 ， 从 而 接近 人 类 智 
力 。 这 个 过 程 一 般 采 用 的 是 机 器 学 习 以 及 机 器 学 习 的 子 集 一 一 深度 学 习 

(deep learning) ， 也 了 驶 是 结合 深度 神经 网 络 的 方法 来 训练 。 所 以 说 ， 
深度 学 习 方 法 是 能 够 迅速 实现 人 工 智 能 很 有 效 的 工具 。 











AlphaGo 的 原理 





20 年 前 ，IBM 的 “深蓝 ”计算 机 打败 人 类 象棋 高 手 的 情景 仿佛 还 历历 在 
目 。20 年 后 ， 人 工 智 能 挑战 最 难 的 棋 类 一 一 围棋 棋局 也 成 功 了 。 那 么 
AlphaGo 是 如 何 下 棋 的 呢 ? 我 们 知道 ， 传 统计 算 机 的 下 棋 方 法 ， 一 般 采 取 贪 
焚 算 法 ， 用 Alpha-Beta 修 剪 法 配合 Min-Max 算 法 。 而 AlphaGo 采 用 了 蒙特 卡 洛 
树 搜索 法 (Monte Carlo tree search, MCTS) 和 深度 卷 积 神经 网 络 (deep 
convolutional neural network, DCNN) 相 结 合 。 模 型 中 涉及 的 主要 网 络 及 作 
用 如 下 。 





















































e (HEN (value network， 也 称 盘 面 评估 函数 ) : 计算 出 盘面 的 分 








e 策略 网 络 (policy network) : 计算 对 于 下 每 一 个 棋子 的 概率 和 胜 
率 。 它 评估 对 手 和 自己 可 能 下 的 位 置 ， 对 可 能 的 位 置 进 行 评估 和 搜寻 。 





训练 模型 的 主要 过 程 分 为 以 下 4 步 。 


C1) 采用 分 类 的 方法 得 到 直接 策略 。 

















(2) 直接 策略 对 历史 棋局 资料 库 进 行 





申 经 网 络 学 习 ， 得 到 习 得 策略 。 
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) 采用 强化 学 习 的 方法 进行 自我 对 局 来 得 到 改 民 策 略 。 











) 用 回归 的 方法 整体 统计 后 得 到 估 值 网 络 。 














这 里 的 神经 网 络 部 分 都 采用 的 是 深度 卷 积 神经 网 络 ， 在 自我 对 局 的 部 分 

















采用 的 是 蒙特 卡 洛 树 状 搜寻 法 (MCTS) 。 
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EF 细 的 论文 见 谷 歌 公司 发 表 在 《上 自然 》 


(Nature ) 上 的 论文 


(Mastering the game of Go with deep neural networks and tree search) . 
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深度 学 习 ， 顾 名 思 义 ， 需 要 从 “深度 ”和 "学习 ”两 方面 来 谈 。 
1. 深度 


深度 学 习 的 前 身 是 人 工 神 经 网 络 Cartificial neural network, 
ANN) ， 它 的 基本 特点 就 是 试图 模仿 人 脑 的 神经 元 之 间 传 递 和 处 理 信息 
的 模式 。 神 经 网 络 这 个 词 本 里 可 以 指 生物 神经 网 络 和 人 工 神经 网 络 。 在 
机 器 学 习 中 ， 我 们 说 的 神经 网 络 一 般 就 是 指 人 工 神经 网 络 。 


图 1-3 给 出 的 是 一 个 最 基本 的 人 工 神 经 网 络 的 3 层 模型 。 


图 1-3 


人 工 神 经 网 络 由 各 个 层 组 成 ， 输 入 层 Cinput layer) 输入 训练 数 
据 ， 在 输出 层 (output layer) 和 输出 计算 结果 ， 中 国有 1 个 或 多 个 隐藏 层 
(hidden layer) ， 使 输入 数据 癌 前 传播 到 输出 层 。“ 深 度 ” 一 词 没 有 具体 
的 特 指 ， 一 般 就 是 要 求 隐藏 层 很 多 (一 般 指 5 层 、10 层 、 几 百 层 甚至 几 
TE. 


























人 工 神经 网 络 的 构想 源 目 对 人 类 大 脑 的 理解 一 一 神经 元 的 彼此 联 
系 。 二 者 也 有 不 同 之 处 ， 人 类 大 脑 的 神经 元 是 按照 特定 的 物理 距离 连接 
的 ， 而 人 工 神 经 网 络 有 独立 的 层 和 连接 ， 还 有 数据 传播 方向 。 


例如 ， 我 们 拿 一 张 图 片 ， 对 它 做 一 些 预 处 理 ， 如 图 像 居 中 、 灰 度 调 


整 、 mc fae 除 噪声 、 倾 斜 度 调整 等 ， 就 可 以 输入 到 神经 网 络 的 第 
一 层 。 然 后 ， 第 一 层 会 自己 提取 这 个 图 像 的 特征 ， 把 有 用 的 特征 向 下 传 
3, mid 层 ， 然 后 输出 结果 。 这 就 是 一 次 前 向 传播  Cforword 


propagation) 。 








最 后 一 层 的 输出 要 给 出 一 个 结论 ， 例 如 ， 在 分 类 问题 中 ， 要 告诉 我 
们 到 的 输 入 的 图 像 是 哪个 类 别 ， 一 般 它 会 给 出 一 个 “概率 问 量 ”。 A. 
4 所 示 ， 列 出 了 这 只 猫 所 属 品种 的 前 5 个 概率 值 。 





图 1-4 





人 工 神经 网 络 的 每 一 层 由 大 量 的 节点 〈 神 经 元 ) 组 成 ， 层 与 层 之 间 
有 大 量 连接 ， 但 是 层 内 部 的 神经 元 一 般 相互 独立 。 深 度 学 习 的 目的 就 是 
要 利用 已 知 的 数据 学 习 一 套 模型 ， 使 系统 在 遇见 未 知 的 数据 时 也 能 够 做 
出 预测 。 这 个 过 程 需要 神经 元 具备 以 下 两 个 特性 。 











(1) 激活 函数 (activation function) : 这 个 函数 一 般 是 非 线性 函 
数 ， 也 就 是 每 个 神经 元 通过 这 个 函数 将 原 有 的 来 自 其 他 神经 元 的 输入 做 
一 个 非 线 性 变化 ， 输 出 给 maya 激活 函数 实现 的 非 线 性 能 力 是 
前 向 传播 (forword propagation) 很 重要 的 一 部 分 。 





(2) 成 本 函数 (cost function) : 用 来 定量 评估 在 特定 输入 值 下 ， 





计算 出 来 的 输出 结果 距离 这 个 输入 值 的 真实 值 有 多 远 ， 然 后 不 断 调 整 每 
一 层 的 权重 参数 ， 使 最 后 的 损失 值 最 小 。 这 就 是 完成 了 一 次 反 回 传播 
(backword propagation) 。 损 失 值 越 小 ， 结 果 就 越 可 靠 。 





神经 网 络 算法 的 核心 就 是 计算 、 连 接 、 评 估 、 纠 错 和 训练 ， 而 深度 
学 习 的 深度 就 在 于 通过 不 断 增加 中 间 隐 藏 导数 和 神经 元 数量 ， 让 神经 网 
络 变 得 又 深 又 宽 ， 让 系统 运行 大 量 数据 ， 训 练 它 。 








2. 学 习 





什么 是 “学 习 ”? 有 一 些 成 语 可 以 概括 : 举一反三 、 闻 一 知 十 、 触 类 
旁 通 、 问 牛 知 马 、 融 会 员 通 等 。 计 算 机 的 学 习 和 人 类 的 学 习 类 似 ， 我 们 
平时 大 量 做 题 〈 训 练 数据 ) ， 不 断 地 经 过 阶段 性 考试 〈 验 证 数据 ) 的 检 
验 ， 用 这 些 知 识 和 人 解 题 方法 模型) 最 终 走 辐 最 终 ( 测 试 数据 〉 的 考 
场 。 








最 简单 也 最 普 裔 的 一 类 机 器 学 习 算 法 就 是 分 类 (classification) - 
对 于 分 类 ， 输 入 的 训练 数据 有 特征 (feature) ， 有 标记 Aabel) ， 在 
学 习 中 就 是 找 出 特征 和 标记 间 的 映射 关系 〈mapping) ， 通 过 标记 来 不 
斯 纠正 学 习 中 的 偏 甜 ， 使 学 习 的 预测 率 不 断 提 高 。 这 种 训练 数据 都 有 标 


记 的 学 习 ， 称 为 有 监督 学 习 (supervised learning) 。 


无 监督 学 习 Cunsupervised learning) 则 看 起 来 非常 困难 。 无 监督 学 
习 的 目的 是 让 计算 机 自己 去 学 习 怎 样 做 一 些 事 情 。 因 此 ， 所 有 数据 只 有 
特征 而 没有 标记 。 





无 监督 


TI 
类 ， 但 是 这 


学 习 一 般 有 两 种 思路 : 一 是 在 训练 时 不 为 其 指定 明确 的 分 
些 数 据 会 呈现 出 聚 群 的 结构 ， 彼 此 相似 的 类 型 会 聚集 在 一 


起 。 计 算 机 通过 把 这 些 没 有 标记 的 数据 分 成 一 个 个 组 合 ， 就 是 聚 类 
(clustering) ; 二 是 在 成 功 时 采用 某 种 形式 的 激励 制度 ， 即 强化 学 习 
(reinforcement learning, RL) 。 对 强化 学 习 来 说 ， 它 虽然 没有 标记 ， 
但 有 一 个 延迟 奖赏 与 训练 相关 ， 通 过 学 习 过 程 中 的 激励 函数 获得 某 种 从 
状态 到 行动 的 映射 。 强 化 学 习 一 般 用 在 游戏 、 下 棋 (如 前 面 提 到 的 
AlphaGo) 等 需要 连续 决策 的 领域 。 〈6.7.1 贡 会 讲解 强化 学 习 的 应 
HR. 








有 人 可 能 会 想 ， 难 道 就 只 有 有 监督 学 习 和 无 监督 学 习 这 两 种 非 黑 即 
日 的 关系 吗 ? 二 者 的 中 间 地 带 就 是 半 监 督学 习 (semi-supervised 
learning) 。 对 于 半 监 督学 习 ， 其 训练 数据 一 部 分 有 标记 ， 另 一 部 分 没 
有 标记 ， 而 没 标记 数据 的 数量 常常 极 大 于 有 标记 数据 的 数量 (这 也 符合 
现实 ， 大 部 分 数据 没有 标记 ， 标 记 数 据 的 成 本 很 大 ) 。 它 的 基本 规律 
是 : 数据 的 分 布 必然 不 是 完全 随机 的 ， 通 过 结合 有 标记 数据 的 局 部 特 
征 ， 以 及 大 量 没 标记 数据 的 整体 分 布 ， 可 以 得 到 比较 好 的 分 类 结果 。 


























因此 , “学习 ”家 族 的 整体 构造 如 图 1-5 所 示 Pl 。 


图 1-5 


关于 有 监督 学 习 和 无 监督 学 习 在 实战 中 的 应 用 ， 会 在 本 书 "实战 
篇 ”中 介绍 。 


13 ”深度 学 习 的 入 门 方法 








要 想 入 门 深度 学 习 ， 需 要 两 个 工具 ， 即 算法 知识 和 大 量 的 数据 ， 外 
加 一 台 计 算 机 ， 如 果 有 GPU 就 更 好 了 ， 但 是 因为 许多 入 门 初 学 者 的 条 件 
有 限 ， 没 有 GPU 也 可 以 ， 本 书 的 许多 讲解 都 是 基于 Mac 笔 记 本 完成 的 。 


我 把 深度 学 习 的 入 门 过 程 整理 成 图 1-6 押 示 的 7 个 步骤 。 







4 研读 论文 、 公 众 号 、 博 客 


LeNet, GoogleNet, AlexNet, LSTM, GAN 


5 动手 训练 


7 
——7 一 一 一 一 遇 到 问题 
进行 演示 案例 、 自 己 实现 演示 案例 重复 4~ 6 步 





图 1-6 

下 面 就 来 详细 介绍 一 下 这 7 个 步骤 。 
1. 学 习 或 者 回忆 一 些 数 学 知识 

因为 计算 机 能 做 的 束 只 是 计算 ， 所 以 人 工 智 能 更 多 地 来 说 还 是 数学 
问题 内 。 我 们 的 目标 是 训练 出 一 个 模型 ， 用 这 个 模型 去 进行 一 系列 的 
了 预测。 于是， 我 们 将 训练 过 程 涉及 的 过 程 抽 象 成 数学 函数 : 首先 ， 需 要 
定义 一 个 网 络 结构 ， 相 当 于 定义 一 种 线性 非 线 性 函数 ;接着 ， 设 定 一 个 
优化 目标 ， 也 就 是 定义 一 种 损失 函数 doss function) 。 








而 训练 的 过 程 ， 就 是 求解 最 优 解 及 次 优 解 的 过 程 。 在 这 个 过 程 中 ， 
我 们 需要 掌握 基本 的 概率 统计 、 高 等 数学 、 线 性 代数 等 知识 ， 如 果 学 过 
就 最 好 ， 没 学 过 也 没关系 ， 仅 仅 知 道 原 理 和 过 程 即 可 ， 有 兴趣 的 读者 可 
以 涉猎 一 些 推 导 证 明 。 





2. 掌握 经 典 机 器 学 习 理 论 与 基本 算法 








这 些 基本 算法 包括 支持 向 量 机 、 人 逻辑 回归 、 决 策 树 、 杆 素 贝 叶 斯 分 
类 器 、 随 机 森林 、 聚 类 算法 、 协 同 过 滤 、 关 联 性 分 析 、 人 工 神 经 网 络 和 
BP 算法 、PCA、 过 拟 合 与 正则 化 等 。 Dl 





在 本 书 “ 实 战 篇 ”的 第 8 章 到 第 13 章 的 例子 中 也 有 贯穿 这 些 算法 知 
识 ， 保 证 读者 可 以 用 它 写 出 一 个 小 的 TensorFlow 程 序 。 


3. 掌握 一 种 编程 工具 语言 ) 


Python 语言 是 一 种 解释 型 、 面 问 对 象 、 动 态 数据 类 型 的 高 级 程序 设 
计 语 言 。Python 是 很 多 新 入 门 的 程序 员 的 入 门 编程 语言 ， 也 是 很 多 老 程 
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阵 的 操作 ， 尤 其 是 Numpy、Pandas 第 三 方 库 ， 也 要 多 试 试 机 器 学 习 的 
库 ， 如 sklearmn， 做 一 些 SVM 及 思 辑 回归 的 练习 。 这 对 直接 上 手写 
TensorFlow 程 序 大 有 人 神 益 。 


有 些 工业 及 学 术 领 域 的 读者 还 可 能 擅长 MATLAB 或 R， 其 实现 算法 
的 思想 和 Python 也 很 类 似 。 


同时 考虑 到 许多 读者 是 使 用 C++、Java、Go 语 言 的 ，TensorFlow 还 
提供 了 和 Python“ 平行 语料库 ?的 接口 。 虽 然 本 书 是 主要 是 基于 Python 讲 
解 的 ， 对 于 其 他 语言 的 原理 和 应 用 API 也 都 非常 类 似 ， 读 者 把 基础 掌握 
后 ， 只 需要 花 很 短 的 时 间 就 能 使 用 自己 擅长 的 语言 开发 。 另 外 对 于 Java 
语言 的 同学 ， 本 书 第 18 章 会 讲解 TensorFlowOnSpark， 第 19 章 会 讲 到 
TensorFlow 的 移动 端 开 发 。 








4. 研读 经 典 论 文 ， 关注 最 新 动态 和 研究 成 果 


一 些 经 典 论文 是 必 读 的 。 例 如 ， 要 做 手写 数字 识别 ， 若 采用 
LeNet， 要 先 阅 读 一 下 LeNet 的 学 术 论 文 ; 要 做 物体 目标 检测 的 训练 ， 知 
选 定 MSCNN 框 架 ， 可 以 先 读 MSCNN 相 关 的 论文 。 那 么 ， 论 文 从 哪里 找 
呢 ? 那么 多 论文 应 该 读 哪 篇 呢 ? 


下 面 以 GoogleNet 的 TensorFlow 实 现 为 例 。 在 GitHub 6! 上 ， 一 般 在 
开头 的 描述 中 就 会 说 明 这 个 模型 所 依据 的 论文 ， 如 图 1-7 所 示 。 


顺 着 这 篇 论文 阅读 ， 可 以 大 人 臻 了解 这 个 网 络 的 实现 原理 ， 对 迅速 上 
手 应 用 有 很 大 的 作用 。 同 时 ， 我 在 第 6 章 也 会 对 LeNet、AlexNet、 
ResNet 这 几 个 第 见 的 网 络 进行 讲解 ， 帮 助 读者 举一反三 。 


Inception in TensorFlow 


ImageNet is a common academic data set in machine learning for training an image recognition system. Code in this 
directory demonstrates how to use TensorFlow to train and evaluate a type of convolutional neural network (CNN) on this 
academic data set. In particular, we demonstrate how to train the Inception v3 architecture as specified in: 


Rethinking the Inception Architecture for Computer Vision 
Christian Szegedy, Vincent Vanhoucke, Sergey loffe, Jonathon Shlens, Zbigniew Wojna 


http://arxiv.org/abs/1512.00567 


图 1-7 





很 多 做 模式 识别 的 工作 者 之 所 以 厉害 ， 是 因为 他 们 有 过 很 多 、 很 深 
的 论文 积累 ， 对 模型 的 设计 有 很 独到 的 见解 ， 而 他 们 可 能 甚至 一 行 代 码 
也 不 会 写 ， 而 工程 ( 写 代 码 〉 能力 在 工作 中 很 容易 训练 。 许 多 工程 方向 
的 软件 工程 师 ， 工 作 模 式 常 常 在 实现 业务 逻辑 和 设计 架构 系统 上 ， 编 码 
能 力 很 强 ， 但 却 缺少 论文 积累 。 同 时 具有 这 两 种 能 力 的 人 ， 正 是 硅谷 一 
些 企业 目前 青睐 的 人 才 。 














读者 平时 还 可 以 阅读 一 些 博客 、 笔 记 ， 以 及 微 信 公 众 号 、 微 博 新 媒 
体 资 讯 等 ， 往 往 一 些 很 流行 的 新 训练 方法 和 模型 会 很 快 在 这 些 媒体 上 发 
酵 ， 其 训练 神经 网 络 采 用 的 一 些 方法 可 能 有 很 大 的 局 发 性 。 


5. 自己 动手 训练 神经 网 络 


接着， 束 是 要 选择 一 个 开源 的 深度 学 习 框 架 。 选 择 框 架 时 主要 考虑 
哪 种 框架 用 的 人 多 。 人 气 旺 后 ， 过 到 问题 很 容易 找到 答案 ; GitHub EX 
于 这 个 框架 的 项 目 和 演示 会 非常 多 ; 相关 的 论文 也 会 层出不穷 ; 在 各 个 
QQ 群 和 微 信 和 群 的 活跃 度 会 高 ， 杂 志 、 公 众 写 、 微 博 关 注 的 人 也 会 很 
Bs 行业 交流 和 技术 峰会 讨论 的 话题 也 多 ; 也 能 至 受到 国内 外 研究 信息 
成 果 的 同步 。 


目前 这 个 阶段 ，TensorFlow 因 为 背 千 谷歌 公司 这 座 靠山 ， 再 加 上 拥 
有 庞大 的 开发 者 群体 ， 而 且 采 用 了 称 为 “可 执行 的 伪 代 码 ” 的 Python 语 
言 ， 更 新 和 发 版 速度 着 实 非常 快 。 目 前 TensorFlow 已 经 升级 到 1.1 版 ， 在 
性 能 方面 也 有 大 幅度 提高 ， 而 且 新 出 现 的 Debugger、Serving、XLA 特 性 
也 是 其 他 框架 所 不 及 的 。 此 外 ， 一 些 外 围 的 第 三 方 库 (如 Keras、 
TFLeam) 也 基于 它 实 现 了 很 多 成 果 ， 并 且 Keras 还 得 到 TensorFlow 官 方 
的 文 持 。TensorFlow 文 持 的 上 层 语言 也 在 逐渐 增多 ， 对 于 不 同 工 程 背 景 
的 人 转 入 的 门槛 正 在 降低 。 











在 GitHub VU! 上 有 一 个 关于 各 种 框架 的 比较 ， 从 建 模 能 力 、 接 口 、 
模型 部 署 、 性 能 、 架 构 、 生 态 系统 、 跨 平台 等 7 个 方面 进行 比较 ， 
TensorFlow 也 很 占 综合 优势 。 截 至 2017 年 1 月 ，TensorFlow 的 star 数 已 经 
超过 了 其 他 所 有 框架 的 上 总和， 如 图 1-8 所 示 。 


因此 ， 从 目前 来 看 ， 投 身 TensorFlow 是 一 个 非常 好 的 选择 ， 掌 握 
TensorFlow 在 找 工作 时 是 一 个 非常 大 的 加 分 项 。 


. 
o This repository Pullrequests Issues Gist A 十 ~ a- 


tensorflow / tensorflow © Watch> — 4,085 wk Unstar 44,348 S Fork 20,686 





<> Code Issues 670 Pull requests 44 Projects 0 Pulse Graphs 
Computation using data flow graphs for scalable machine learning http://tensorflow.org 


13,302 commits 18 branches 21 releases 44 601 contributors Apache-2.0 


接 下 来 就 是 找 一 个 深度 神经 网 络 ， 目 前 的 研究 方向 主要 集中 在 视觉 
和 语音 两 个 领域 。 初 学 者 最 好 从 计算 机 视觉 入 手 ， 因 为 它 不 像 语音 等 领 
域 需要 那么 多 的 领域 知识 ， 结 果 也 比较 直观 。 例 如 ， 用 各 种 网 络 模型 来 
训练 手写 数字 (MNIST) 及 图 像 分 类 CCIFARO. 的 数据 集 。 


6. 深入 感 兴趣 或 者 工作 相关 领域 


人 工 智 能 目前 的 应 用 领域 很 多 ， 主 要 是 计算 机 视觉 和 目 然 语言 处 
理 ， 以 及 各 种 预 训 等 。 对 于 计算 机 视觉 ， 可 以 做 图 像 分 类 、 目 标 检测 、 
视频 中 的 目标 检测 等 ， 对 于 目 然 语 言 处 理 ， 可 以 做 语音 识别 、 语 音 合 
成 、 对 话 系统 、 机 露 翻 译 、 文 章 摘要 、 情 感 分 析 等 ， 还 可 以 结合 图 像 、 
视频 和 语音 ， 一 起 发 挥 价值 。 








更 可 以 深入 菏 一 个 行业 领域 。 例 如 ， 深 入 医学 行业 领域 ， 做 医学 影 
像 的 识别 ， 深 入 淘宝 的 穿 衣 领域 ， 做 衣服 搭配 或 衣服 和 型 的 识别 ， 深 入 
保险 业 、 通 信 业 的 客服 领域 ， 做 对 话机 器 人 的 智能 问答 系统 ;深入 智能 
家 大 领域 ,做 人 机 的 目 然 语言 交互 ， 等 等 。 








7. 在 工作 中 过 到 问题 ， 重 复 前 六 步 


在 训练 中 ， 准 确 紊 、 坏 案例 (bad case) 、 识 别 速度 等 都 是 可 能 遇 
到 的 天 贷 。 训 练 好 的 模型 也 不 是 一 成 不 变 的 ， 需 要 不 断 优化 ， 也 需要 结 
合 具 体 行业 领域 和 业务 进行 创新 ， 这 时 候 就 要 结合 最 新 的 科研 成 果 ， 调 
整 模 型 ， 更 改 模型 参数 ， 一 步 步 更 好 地 贴近 业务 需求 。 


1.4 什么 是 TensorFlow 


想 想 ， 在 机 器 学 习 流 行 之 前 ， 我 们 是 如 何 做 与 语音 和 图 像 相 关 的 识 
别 的 ? 大 多 数 是 基于 规则 的 系统 。 例 如 ， 做 自然 语言 处 理 ， 需 要 很 多 语 
言 学 的 知识 ， 再 如 ，1997 年 的 IBM 的 深蓝 计算 机 对 战国 际 象棋 ， 也 需要 
很 多 象棋 的 知识 。 








当 以 统计 方法 为 核心 的 机 器 学 习 方 法 成 为 主流 后 ， 我 们 需要 的 领域 
知识 就 相对 少 了 。 重 要 的 是 做 特征 工程 (feature engineering) ， 然 后 调 
一 些 参数 ， 根 据 一 些 领 域 的 经 验 来 不 断 提取 特征 ， 特 征 的 好 坏 往 往 就 直 
接 决定 了 模型 的 好 坏 。 这 种 方法 的 一 大 缺点 是 ， 对 文字 等 抽象 领域 ， 特 
征 还 相对 容易 提取 ， 而 对 语音 这 种 一 维 时 域 信 号 和 图 像 这 种 二 维 空 域 信 
写 等 领域 ,提取 特 征 就 相对 困难 。 








深度 学 习 的 革命 性 在 于 ， 它 不 需要 我 们 过 多 地 提取 特征 ， 在 神经 网 
络 的 每 一 层 中 ， 计 算 机 都 可 以 自动 学 习 出 特征 。 为 了 实现 深度 学 习 中 运 
用 的 神经 网 络 ，TensorFlow 这 样 的 深度 学 习 开 源 工具 就 应 运 而 生 。 我 们 
可 以 使 用 它 来 搭建 自己 的 神经 网 络 。 这 就 有 点 儿 类 似 于 PHP 开 发 当中 的 
Codelgniter 框 架 ，Java 开 发 当中 的 SSH 三 大 框架 ，Python 开 发 当中 的 
Tornado、Django 框 架 ，C++ 当 中 的 MFC、ACE 框 架 。 框 架 的 主要 目的 
就 是 提供 一 个 工具 箱 ， 使 开发 时 能 够 简化 代码 ， 呈 现 出 来 的 模型 尽 可 能 
简洁 易 懂 。 











15 为 什么 要 学 TensorFlow 








首先 ，TensorFlow 的 一 大 亮点 是 支持 异 构 设 备 分 布 式 计算 


(heterogeneous distributed computing) 。 





ARM? 信息 技术 当中 的 异 构 是 指 包含 不 同 的 成 分 ， 有 异 构 网 
络 〈 如 互联 网 ， 不 同 广 家 的 硬件 软件 产品 组 成 统一 网 络 且 互相 通信 ) 、 
异 构 数 据 库 (多 个 数据 库 系统 的 集合 ， 可 以 实现 数据 的 共享 和 透明 访问 
81») 。 这 里 的 异 构 设 备 是 指使 用 CPU、GPU 等 核心 进行 有 效 地 协同 合 
作 ; 与 只 依靠 CPU 相 比 ， 性 能 更 高 ， 功 耗 更 低 。 








那 何 为 分 布 式 ? 分 布 式 架 构 目 的 在 于 帮助 我 们 调度 和 分 配 计算 资源 
其 至 容错 ， 如 某 个 计算 节点 宕 机 或 者 大 慢 ) ， 使 得 上 千 万 、 上 亿 数 气 
量 的 模型 能 够 有 效 地 利用 机 器 资源 进行 训练 。 


图 1-9 给 出 的 是 开源 框架 TensorFlow 的 标志 。 


tensorflow 


http://www.tensorflow.org github-admin@tensorflow.org 





图 1-9 


TensorFlow 支 持 卷 积 神经 网 络 (convolutional neural network, 
CNN) 和 循环 神经 网 络 (recurrent neural network, RNN) ， 以 及 RNN 
的 一 个 特例 长 短期 记忆 网 络 Cong short-term memory, LSTM) ， 这 些 








都 是 目前 在 计算 机 视觉 、 语 音 识别 、 自 然 语 言 处 理 方面 最 流行 的 深度 神 
经 网 络 模型 。 


下 面 参 考 《The Unreasonable Effectiveness of Recurrent Neural 


Networks) !9! 这 篇 文章 梳理 了 一 个 有 效 框架 应 该 具有 的 功能 。 





e Tensor 库 是 对 CPU/GPU 透 明 的 ， 并 且 实 现 了 很 多 操作 〈 如 切片 、 数 


组 或 矩阵 操作 等 ) 。 这 里 的 透明 是 指 ， 在 不 同 设备 上 如 何 运 行 ， 都 
是 框架 帮 用 户 去 实现 的 ， 用 户 只 需要 指定 在 哪个 设备 上 进行 哪 种 运 
算 即 可 。 

有 一 个 完全 独立 的 代码 库 ， 用 脚本 语言 (最 理想 的 是 Python〉 来 操 
作 Tensors， 并 且 实 现 所 有 深度 学 习 的 内 容 ， 包 括 前 向 传播 / 反 回 传 
播 、 图 形 计算 等 。 

可 以 轻松 地 共享 预 训练 模型 〈 如 Caffe 的 模型 及 TensorFlow 中 的 Slim 
模块 ) 。 

没有 编译 过 程 。 深 度 学 习 是 朝 着 更 大 、 更 复杂 的 网 络 发 展 的 ， 因 此 
在 复杂 图 算法 中 花费 的 时 间 会 成 倍增 加 。 而 且 ， 进 行 编译 的 话 会 丢 
失 可 解释 性 和 有 效 进行 日 志 调 试 的 能 














在 我 看 来 ， 在 目前 的 深度 学 习 的 研究 领域 主要 有 以 下 3 类 人 和 群 。 





学 者 。 主 要 做 深度 学 习 的 理论 研究 ， 研 究 如 何 设计 一 个 “网 络 模 
型 ”， 如 何 修改 参数 以 及 为 什么 这 样 修改 效果 会 好 。 平 时 的 工作 主 
要 是 关注 科研 前 沿 和 进行 理论 研究 、 模 型 实验 等 ， 对 新 技术 、 新 理 
论 很 敏感 。 

算法 改进 者 。 这 些 人 为 了 把 现 有 的 网 络 模型 能 够 适 配 自 己 的 应 用 ， 
达到 更 好 的 效果 ， 会 对 模型 做 出 一 些 改进 ， 把 一 些 新 算法 改进 应 用 





到 现 有 模型 中 。 这 类 人 主要 是 做 一 些 基础 的 应 用 服务 ， 如 基础 的 语 
音 识别 服务 、 基 础 的 人 脸 识别 服务 ， 为 其 他 上 层 应 用 方 提 供 优 民 的 
模型 。 

工业 研究 者 。 这 类 人 群 不 会 涉及 太 深 的 算法 ， 主 要 掌握 各 种 模型 的 
网 络 结构 和 一 些 算法 实现 。 他 们 更 多 地 是 阅读 优秀 论文 ， 根 据 论文 
去 复 现 成 果 ， 然 后 应 用 到 目 己 所 在 的 工业 领域 。 这 个 层次 的 人 也 是 
现在 深度 学 习 研 究 的 主流 人 和 群 。 

















我 相信 本 书 的 读者 也 大 都 是 第 二 类 和 第 三 类 人 群 ， 且 以 第 三 类 人 和 群 
大 多。 





而 在 工业 界 ，TensorFlow 将 会 比 其 他 框架 更 具 优 势 。 工 业界 的 目标 
是 把 模型 落实 到 产品 上 ， 而 产品 的 应 用 领域 一 般 有 两 个 : 一 是 基于 服务 
羔 的 大 数据 服务 ， 让 用 户 直 接 体 验 到 服务 端 强 大 的 计算 能 力 〈 谷 歌 云 平 
台 及 谷歌 搜索 功能 ) ; 二 是 直接 面 问 终端 用 户 的 移动 器 〈Android 系 
统 ) 以 及 一 些 智 能 产品 的 磐 入 式 。 





坐 拥 Android 的 市 场 份额 和 影响 力 的 谷歌 公司 ， 在 这 两 个 方向 都 很 
强大 。 此 外 ， 人 谷歌 力 推 的 模型 奈 盎 和 8 位 低 精 度数 据 存 储 《〈 详 见 第 19 
章 ) 不 仅 对 训练 系统 本 身 有 优化 作用 ， 在 茶 种 程度 上 也 能 使 算法 在 移动 
设备 上 的 部 署 获 蔓 ， 这 些 优 化 举措 将 会 使 存储 需求 和 内 存 带宽 要 求 降 
低 ， 并 且 使 性 能 得 到 提升 ， 对 移动 设备 的 性 能 和 功 耗 非常 有 利 。 

如 果 一 个 框架 的 用 户 生 态 好 ， 用 的 人 残 会 很 多 ， 而 用 的 人 多 会 让 用 


户 生态 更 繁荣 ， 用 的 人 也 就 会 更 多 。 这 庞大 的 用 户 数 就 是 TensorFlow 框 
架 的 生命 力 。 


#% 2017421, Caffe, Theano, Torch, MXNet@@: JE ZR JH EE, 
TensorFlow 在 GitHub 上 Fork 数 和 Star 数 都 是 最 多 的 ， 如 图 1-10 所 示 。 


tensorflow / tensorflow © Watch> 4,084 食 Unstar 44,353 V Fork 20,693 
BVLC / caffe Q Watch> 1,805 Ww Star 15,656 S Fork 9,647 
torch / torch7 9 Watch» 641 K Star 6,284 S Fork 1,835 


Theano / Theano Q Watch - 504 食 Star 5,558 S Fork 1,925 


图 1-10 


图 1-11 展 示 了 截至 2017 年 2 月 ， 近 些 年 几 大 机 器 学 习 框 架 的 流行 程 
Eo 


图 1-11 


1.5.1 ”TensorFlow 的 特性 





在 TensorFlow 官 方 网 站 H0) 上 ， 着 重 介 绍 了 TensorFlow 的 6 大 优势 特 


高 度 的 灵活 性 (deep flexibility) 。TensorFlow 是 一 个 采用 数据 流 
图 (data flow graph) ， 用 于 数值 计算 的 开源 软件 库 。 只 要 计算 可 
以 表示 为 一 个 数据 流 图 ， 就 可 以 使 用 TensorFlow， 只 需要 构建 图 ， 
书写 计算 的 内 部 循环 即 可 。 因 此 ， 它 并 不 是 一 个 严格 的 “神经 网 络 
库 ”。 用 户 也 可 以 在 TensorFlow 上 封 狠 上 自己 的 “上 层 库 ”， 如 果 发 现 没 
有 自己 想 要 的 底层 操作 ， 用 户 也 可 以 自己 写 C++ 代 码 来 丰富。 关于 
封装 的 “上层 库 ?，TensorFlow 现 在 有 很 多 开源 的 上 层 库 工具 ， 极 大 





地 减少 了 重复 代码 量 ， 在 第 7 章 中 会 详细 介绍 。 

真正 的 可 移植 性 (true portability) 。TensorFlow 可 以 在 CPU 和 GPU 
上 运行 ， 以 及 在 台式 机 、 服 务 器 、 移 动 端 、 云 端 服务 器 、Docker 容 
器 等 各 个 终 病 运行 。 因 此 ， 当 用 户 有 一 个 新 点 子 ， 束 可 以 立即 在 笔 
记 本 上 进行 尝试 。 

将 科研 和 产品 结合 在 一 起 (connect research and production) 。 过 
去 如 果 将 一 个 科研 的 机 器 学 习 想 法 应 用 到 了 商业 化 的 产品 中 ， 雷 要 很 
多 的 代码 重 写 工作 。 现 在 TensorFlow 提 供 了 一 个 快速 试验 的 框架 ， 
可 以 尝试 新 算法 ， 并 训练 出 模型 ， 大 大 提高 了 科研 产 出 率 。 
目 动 求 微分 (auto-differentiation〉。 求 微分 是 基于 梯度 的 机 屁 学 习 
算法 的 重要 一 步 。 使 用 TensorFlow 后 ， 只 需要 定义 预测 模型 的 结构 
和 目标 轴 数 ， 将 两 者 结合 在 一 起 后 ， 添 加 相应 的 数据 ，TensorFlow 
就 会 自动 完成 计算 微分 操作 。 

多 语言 支持 (language options) 。TensorFlow 提 供 f Python, 

C++、Java 接 口 来 构建 用 户 的 程序 ， 而 核心 部 分 是 用 C++ 实 现 的 ， 
如 图 1-12 所 示 。 第 4 章 中 会 着 重 讲解 TensorFlow 的 架构 。 用 户 也 可 以 
使 用 Jupyter Notebook HH 来 书写 笔记 、 人 代码， 以 及 可 视 化 每 一 步 的 
特征 映射 Cfeature map) 。 用 户 也 可 以 开发 更 多 其 他 语言 〈 如 
Go、Lua、R 等 ) 的 接口 。 








图 1-12 
最 优化 性 能 (maximize performance) 。 假 如 用 户 有 一 台 32 个 CPU 内 


核 、4 个 GPU 显卡 的 机 器 ， 如 何 将 计算 机 的 所 有 硬件 计算 资源 全 部 
发 挥 出 来 呢 ? TensorFlow 给 予 线程 、 队 列 、 分 布 式 计 算 等 支持 ， 可 











以 让 用 户 将 TensorFlow 的 数据 流 图 上 的 不 同 计算 元 素 分 配 到 不 同 的 
设备 上 ， 最 大 化 地 利用 硬件 资源 。 关 于 线程 和 队列 ， 将 在 4.9 节 中 
介绍 ;， 关 于 分 布 式 ， 将 在 第 14 章 介绍 。 


1.5.2 ”使 用 TensorFlow 的 公司 





除了 谷歌 在 自己 的 产品 线 上 使 用 TensorFlow 外 ， 国 内 的 京东 、 小 米 
等 公司 ， 以 及 国外 的 Uber、eBay、Dropbox、Airbnb 等 公司 ， 都 在 尝试 
使 用 TensorFlow。 图 1-13 是 摘自 TensorFlow 官 方 网 站 的 日 益 壮 大 的 公司 


墙 。 


(£y airbnb @AIRBUS ARM CEVA 


CIT Q DeepMind $2 Dropbox ebay 
Google — (intel) JD.COM 京东 


D Movidius %< Qualcomm 
SARA n y 


图 1-13 


1.5.3 ”TensorElow 的 发 展 





2016 年 4 月 ，TensorFlow 的 0.8 版 本 就 文 持 了 分 布 式 、 支 持 多 GPU 运 
算 。2016 年 6 月 ，TensorFlow 的 0.9 版 本 改进 了 对 移动 设备 的 文 持 。2017 
年 2 月 ，TensorFlow 的 1.0 正 式 版 本 中 ， 增 加 了 Java 和 Go 的 实验 性 API， 以 
及 专用 编译 器 XLA 和 调试 工具 Debugger， 还 发 布 了 tf.transform， 专 门 用 
来 数据 预 处 理 。 并 且 还 推出 了 “动态 图 计算 ”TensorFlow Fold， 这 是 被 评 
价 为 “第 一 次 清晰 地 在 设计 理念 上 领先 ” MA, 


用 户 还 可 以 使 用 谷歌 公司 的 PaaS TensorFlow 产 品 Cloud Machine 
Learning 来 做 分 布 式 训练 。 现 在 也 已 经 有 了 完整 的 TensorFlow Model 


Z00. 


另外 ，TensorFlow 出 色 的 版 本 管理 和 细致 的 官方 文档 手册 ， 以 及 很 
容易 找到 解答 的 繁荣 的 社区 ， 应 该 能 让 用 户 用 起 来 相当 顺手 。 


截至 2017 年 3 月 ， 用 TensorFlow 作 为 生产 平台 和 科研 基础 研发 已 经 
越 来 越 坚 实 可 靠 。 


1.66 plas INA KES 


说 到 机 器 学 习 ， 不 得 不 提 到 每 年 的 一 些 挑战 赛 。 近 年 来 取得 好 成 绩 
的 队伍 ， 和 背负 时 使 用 深度 学 习 的 方法 的 。 正 是 这 些 赛事 激 励 着 全 世界 科 
学 家 不 断 采 用 更 优化 的 方法 提 蜗 算法 结果 的 准确 率 ， 也 引领 着 年 度 的 深 
度 学 习 探 索 方 同 。 





1.6.1 ImageNet 的 ILSVRC 


ILSVRC (ImageNet Large Scale Visual Recognition Challenge, JJ 
模 视 觉 识别 挑战 赛 ) 征用 来 大 规模 评估 对 象 检测 和 图 像 识别 的 算法 的 挑 
战 赛 。 从 2010 年 开始 ， 至 2016 年 已 举办 7 届 。ImageNet 是 目前 世界 上 最 
大 的 图 像 识别 数据 库 ， 拥 有 超过 1500 万 张 有 标记 的 高 分 辨 率 图 像 的 数据 
集 ， 这 些 图 像 分 属于 大 概 22 000 个 类 别 。ILSVRC 使 用 ImageNet 的 一 个 
子 集 ， 分 为 1000 种 类 别 ， 每 种 类 别 中 都 有 大 约 1 000 张 图 像 。 总 之 ， 大 
约 有 120 万 张 训练 图 像 ，5 万 张 验证 图 像 和 15 万 张 测试 图 像 。 [3 图 1-14 
所 示 为 ImageNet 的 官方 网 站 。 
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ILSVRC 每 年 邀请 谷歌 、 微 软 、 百 度 等 I 企业 使 用 ImageNet， 测 试 
他 们 图 片 分 类 系统 运行 情况 。 过 去 几 年 中 ， 该 系统 的 图 像 识 别 功 能 大 大 
提高 ， 出 错 率 仅 为 约 5%〔( 比 人 眼 还 低 ， 人 了 眼 的 识别 错误 率 大 概 在 5.1% 
[1 和) 。 在 2015 年 ，ILSVRC 的 错误 率 已 经 降低 到 了 3.57% 5), 3X 1152 
层 的 ResNet 获 得 了 2015 年 分 类 任务 的 第 一 名 。ILSVRC 历 年 的 Top-5 错 误 
率 如 图 1-15 所 示 。 


在 ImageNet 上， 习惯 性 地 报告 两 个 错误 率 : Top-1 和 Top-5。Top-1 
错误 率 是 指 ， 预 测 输 出 的 概率 最 高 的 类 别 ， 是 否 和 人 工 标 记 的 类 别 一 
致 ， 如 果 不 一 致 ， 此 时 的 概率 。Top-5 错 误 率 是 指 ， 预 测 输出 的 概率 最 
高 的 前 5 个 类 别 当 中 ， 有 没有 和 人 工 标记 的 类 别 一 致 ， 当 5 个 都 不 一 致 时 
的 概率 。 例 如 在 图 片 分 类 任务 下 ， 对 一 张 图 片 进行 预测 ， 输 出 这 张 图 亡 
分 类 概率 最 高 的 5 个 类 别 ， 只 要 有 一 个 预测 的 类 别 和 人 工 标注 的 类 别 标 
记 一 致 ， 束 是 认为 正确 。 当 5 个 都 不 一 致 发 生 的 概率 就 是 Top-5 错 误 率 。 








图 1-15 





值得 自豪 的 是 ， 在 刚刚 过 去 的 ILSVRC 2016 上 ， 中 国学 术 界 和 工业 
界 科研 团队 包揽 了 多 项 冠军 Ue), 


CUImage (向 汤 科技 联合 港 中 文 ): 目标 检测 第 一 。 
Trimps-Soushen (公安 部 三 所 〉: 目标 定位 第 一 。 

CUvideo〈 商 汤 科技 联合 港 中 文 )》: 视频 中 物体 检测 子 项 目 第 一 。 
NUIST《 南 京 信息 工程 大 学 ) : 视频 中 的 物体 探测 两 个 子 项 目 第 





Hikvvision CERRI) : 场景 分 类 第 一 。 
SenseCUSceneParsing〈 商 汤 科 技 联 合 港 中 文 ) : 场景 分 析 第 一 。 


1.6.2 Kaggle 





如 果 说 ILSVRC 企 业 参 加 的 居多 ， 那 Kaggle 这 个 平台 则 更 多 地 面 癌 
个 人 开发 者 。 图 1-16 展 示 的 是 Kaggle 的 官方 网 站 首页 。 





Kaggle 成 立 于 2010 年 ， 是 一 个 进行 数据 发 掘 、 数 据 分 析 和 预测 竞赛 
的 在 线 平 台 。 与 Kaggle 合 作 之 后 ， 一 家 公司 可 以 提供 一 些 数据 ， 进 而 提 
出 一 个 问题 ，Kaggle 网 站 上 的 计算 机 科学 家 和 数学 家 《〈 也 就 是 现在 的 数 
据 科学 家 ) 将 领取 任务 ， 提 供 潜 在 的 解决 方案 。 最 终 胜出 的 解决 方案 可 
以 获得 3 万 美元 到 25 万 美元 的 奖励 。 也 就 是 说 ，Kaggle 也 是 一 个 众 包 理 
念 ， 利 用 全 世界 的 人 才 来 解决 一 个 大 问题 。 
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图 1-16 


Kaggle 这 个 比赛 非常 适合 学 生 参 加 ， 因 为 一 般 在 校 学 生 可 能 拿 不 到 
很 多 数据 。 此 外 ，Kaggle 不 仅 对 参赛 者 有 算法 能 力 上 的 要 求 ， 而 且 能 锻 
炼 参赛 者 对 数据 的 “嗅觉 *， 使 参赛 着 从 数据 本 身 问题 出 发 来 寻求 解决 方 


案 。 











1.6.3” 天池 大 数据 竞赛 


“天 池 ” 是 阿里 搭建 的 一 个 大 数据 了 苋 赛 平台 ， 图 1-17 展 示 的 古 它 的 官 
方 网 站 页 面 。 
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图 1-17 





这 个 平台 上 一 般 会 有 一 些 罕 衣 搭 配 挑战 、 新 溪 微 博 互 动 预测 、 用 户 
重复 购买 行为 预测 等 完事 。 平 台 提 供 的 “ 冤 题 攻略 ”对 新 手 入 门 有 很 大 的 
引领 作用 。 如 果 在 一 些 项 目 上 取得 不 错 的 成 绩 ， 还 有 丰厚 的 奖金 ， 以 及 
进入 阿里 巴巴 的 工作 机 会 。 








1.7 国内 的 人 工 智能 公司 





近年 来 ， 国 内 涌现 出 一 批 做 人 工 智能 的 公司 ， 很 多 原 有 的 互联 网 公 
司 也 开始 试 水 人 工 智能 方向 。 虽 然 不 可 否认 人 工 智能 领域 还 是 有 一 些 泡 
沫 存在 ， 但 是 这 个 技术 领域 的 井喷 点 确实 来 临 了 ， 确 切 地 说 是 科研 成 果 
的 井喷 点 。 我 们 要 做 的 就 是 加 快 科研 成 果 疝 产品 的 转化 速度 。 





国内 的 腾讯 、 阿 里 、 百 度 三 大 公司 在 人 工 智能 研究 和 商业 化 探索 方 
面 走 得 最 早 。 腾 讯 优 图 是 腾讯 的 人 工 智能 开放 平台 ; 阿里 云 ET 是 阿里 
巴巴 的 智能 机 器 人 ， 百度 主要 在 无 人 驾驶 汽车 和 手机 百度 客户 端的 基 
于 “ 目 然 语言 的 人 机 交互 界面 ”的 “ 度 秘 * 上 发 力 。 这 些 都 是 人 工 智 能 在 产 
业界 应 用 的 探索 。 此 外 ， 还 有 搜狗 、 云 从 科技 、 商 汤 科 技 、 昆 仑 万 维 、 
格 灵 深 瞳 等 公司 ， 都 在 人 工 智 能 领域 纷纷 发 力 。 





下 面 我 们 就 来 介绍 国内 几 家 比较 有 特色 的 做 人 工 智能 的 公司 。 


CD 陌 上 花 科 技 : K+ Cdress+) 。 提 供 图 像 识 别 、 图 像 搜索 、 物 
体 追 踪 检 测 、 图 片 目 动 化 标记 、 图 像 视频 智能 分 析 、 边 看 边 买 、 人 脸 识 
别 和 分 析 等 服务 。 其 官方 网 站 的 首页 如 图 1-18 所 示 。 


应 用 场景 关于 我 们 400-870-9095 
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(2) WANE: Facet++。 以 人 脸 识 别 精度 著称 ， 并 且 提 供 人 工 智 
能 开放 平台 。 目 前 已 经 和 美 图 和 郁郁、 魔 漫 相机 合作 ， 实 现 美 日 、 瘦 脸 、 
五 官 美化 等 美 颜 效 果 。 此 外 ， 还 和 文 付 宝 合 作 ， 未 来 有 望 推出 “Smile to 
Pay”。 其 官方 网 站 首页 如 图 1-19 所 示 。 
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图 1-19 


(3) 科大 讯 飞 。 主 要 提供 语 首 识别 解决 方案 ， 以 及 语 首 合成 、 语 
言 去 (分词 、 词 性 标注 、 命 名 实体 识别 、 依 存 句 法 分 析 、 语 义 角色 标注 
等 ) 等 语音 扩展 服务 ， 有 完善 的 SDK 及 多 种 语言 实现 的 API。 其 官方 网 
站 首页 如 图 1-20 所 示 。 
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(4) 地平线。 先入 式 人 工 智 能 的 领导 者 ， 致 力 于 提供 高 性 能 、 低 
功 耗 、 低 成 本 、 完 整 开放 的 藤 入 式 人 工 智 能 解决 方案 。 其 官方 网 站 首页 
如 图 1-21 所 示 。 
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图 1-21 
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本 章 主 要 介绍 了 人 工 智能 、 机 器 学 习 、 深 度 Mio AM id 
学 习 的 学 习 步 又， 分 析 了 这 个 领域 的 相关 人 和 群 ， 以 及 这 个 领域 的 重要 
事 。 然 后 ， 全 面 介 绍 了 TensorFlow 的 作用 、 特 性 ， 并 介 AT LACT 
智能 的 公司 ， 讲 述 了 目前 在 产业 界 进行 的 探索 ， 和 提供 给 开发 者 的 一 些 
基础 平台 。 
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[5] ”推荐 读者 阅读 李 航 老师 的 《统计 学 习 方 法 》， 很 快 就 能 入 门 。 
[6] https://github.com/tensorflow/models/tree/master/inception 


[7] https://github.com/zerOn/deepframeworks 





[8] ”参考 百度 百科 “ 异 构 数据 库 ?。 
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[10] https://www.tensorflow.org/ 
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[12] ”参考 论文 《Deep Leaning with Dynamic Computation 
Graphs) : https://openreview.net/pdf?id=ryrGawgex . 


[13] “参考 论文 《ImageNet Classification with Deep Convolutional Neural 


Networks) : http://www.cs.toronto.edu/~ fritz/absps/ imagenet.pdf . 


[14] ”数据 出 自 论文 《Delving Deep into Rectifiers: Surpassing Human- 
Level Performance on ImageNet 


Classification) : https://arxiv.org/abs/1502.01852 . 


[15] ”数据 出 自 论文 《Deep Residual Learning for Image 
Recognition? : https://arxiv.org/abs/1512.03385 . 


78233 ”TensorFlow 环 境 的 准备 
本 章 的 主要 任务 就 是 准备 TensorFlow 环 境 。 与 安装 其 他 软件 (如 
Caffe) 相 比 ，TensorFlow 极 容易 安装 ， 环 境 部 署 极为 轻松 。 


接 下 来 我 们 先 介 绍 下 载 TensorFlow 代 人 码 仓库 ， 然 后 介绍 基于 pip 的 安 
装 方 式 、 基 于 Java 的 安装 方式 以 及 使 用 Bazel 的 源 代码 编译 安装 方式 。 








2.1 下载 TensorFlow 1.1.0 


2017 年 5 月 ，TensorFlow 已 经 开放 到 1.1.0-rc2 版 本 ， 支 持 多 种 操作 系 
统 。 接 下 来 我 们 就 用 1.1.0 版 本 来 介绍 TensorFlow 的 环境 准备 过 程 。 


我 们 从 GitHub 代 码 仓库 中 将 1.1.0 版 本 的 TensorFlow 源 代码 下 载 下 
来 ， 在 Tags 中 选择 1.1.0 版 本 将 跳 转 到 1.1.0 版 本 的 代码 仓库 册 ， 如 图 2-1 
所 示 。 


Tag: v1.1.0-rc2 ~ New pull request 


Switch branches/tags 


ea te 
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v1.1.0-rc1 
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v1.0.0-rcO 
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v0.12.0 
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图 2-1 


根据 图 2-2 下 载 解压 之 后 即 得 到 源 人 代码， 我 们 将 其 保存 在 本 地 目录 
tensorflow-1.1.0 中 。 


»w file | Upload files | Find file Clone or download ~ 
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图 2-2 


2.2 ”基于 pip 的 安装 


pip 是 Python 的 包 管理 工具 ， 主 要 用 于 PyPI II (Python Packet 
Index) 上 的 包 。 命 令 简洁 方便 ， 包 种 类 丰富 ， 社 区 完善 ， 并 且 拥 有 轻 
松 升级 /降级 包 的 能 力 。 





2.2.1 Mac OS 环境 准备 


Mac OS 是 本 书 所 讲 内 容 依赖 的 环境 ， 机 器 配置 如 图 2-3 所 示 。 
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图 2-3 
首先 需要 依赖 Python 环境 ， 以 及 pip 命 令 。 这 在 Mac 和 Linux 系 统 中 


一 般 都 有 。 这 里 使 用 的 Python 版 本 是 2.7.12。TensorFlow 1.1.0 版 本 兼容 
Python 2 和 Python 3， 读 者 可 以 用 适合 自己 的 Python 环境 。 


1. 安装 virtualenv 
virtualenv 是 Python 的 沙 箱 工具 ， 用 于 创建 独立 的 Python 环境 。 我 们 


毕竟 是 在 目 己 机 器 上 做 实验 ， 为 了 不 来 回 修改 各 种 环境 变量 ， 这 里 用 
virtualenv 为 TensorFlow 创 建 一 套 “ 隔 离 ” 的 Python 运行 环境 。 





首先 ， 用 pip 安 装 virtualenv: 


$ pip install virtualenv --upgrade 





安装 好 后 创建 一 个 工作 目录 ， 这 里 直接 在 home 下 创建 了 一 个 
tensorflow CF: 


$ virtualenv --system-site-packages ~/tensorflow 





然后 进入 该 目录 ， 激 活 沙 箱 : 





$ cd ~/tensorflow 
$ source bin/activate 
(tensorflow) $ 


pO 


2. 在 virtualenv 里 安装 TensorFlow 


进入 沙 箱 后 ， 执 行 下 面 的 命令 来 安装 TensorFlow: 


(tensorflow) $ pip install tensorflow==1.1.0 





默认 安装 所 需 的 依赖 ， 直 至 安装 成 功 。 


se 


3. 运行 TensorFlow 





照 着 官方 文档 录入 一 个 简单 例子 : 


(tensorflow) $ python 

Python 2.7.12 (default, Oct 11 2016, 05:16:02) 

[GCC 4.2.1 Compatible Apple LLVM 7.0.2 (clang-700.1.81)] on darwin 
Type "help", "copyright", "credits" or "license" for more information. 
>>> 

>>> import tensorflow as tf 

>>> hello = tf.constant('Hello, TensorFlow! ' ) 

>>> sess = tf.Session() 


>>> print sess.run(hello) 
Hello, TensorFlow! 





茶 喜 ，TensorFlow 环 境 已 经 安装 成 功 了 。 





JER, BH BIZ {TTensorFlowhe/rl}, $5 3t Atensorflow H 
录 ， 然 后 执行 source bin/activate 命 令 来 激活 沙 箱 。 


2.2.2 Ubuntu/Linux 环 境 准 备 


使 用 UbuntuLinux 的 读者 可 以 照 着 Mac OS 的 环境 准备 ， 先 安装 
virtualenv 的 沙 盒 环 境 ， 再 用 pip 安 装 TensorFlow 软 件 包 。 


TensorFlow 的 UbuntuLinux 安 装 分 为 CPU 版 本 和 GPU 版 本 ， 下 面 来 
分 别 介绍 。 


(1) 安装 仅 文 持 CPU 的 版 本 ， 直 接 安 装 如 下 : 


$ pip install tensorflow--1.1.0 





(2) 安装 支持 GPU 的 版 本 的 前 提 是 已 经 安装 了 CUDA SDK， 直 接 
使 用 下 面 的 命令 : 


$ pip install tensorflow-gpu--1.1.0 





2.2.3 Windows? B5 EG 


TensorFlow 1.1.0 版 本 支持 Windows 7. Windows 10 和 Server 2016. 
因为 使 用 Windows PowerShell 代 蔡 CMD， 所 以 下 面 的 命令 均 在 
PowerShell 下 执行 。 这 里 使 用 的 是 Windows 10 系 统 ， 使 用 微软 小 娜 呼唤 
出 PowerShell， 如 图 2-4 所 示 。 


| E3 Windows PowerShell j o X 


oft Corporation o 保留 所 有 权利 。 





图 2-4 


1. 安装 P ython 


TensorFlow 在 Windows 上 只 文 持 64 位 Python 3.5.x， 可 以 通过 Python 
Releases for Windows |?! 或 Python 3.5 from Anaconda 下 载 并 安装 Python 


3.5.2 (注意 选择 正确 的 操作 系统 ) 。 下 载 后 ， 安 装 界面 如 图 2-5 所 示 ， 
TE XU" Add Python 3.5 to PATH". 


œ Python 3.5.2 (64-bit) Setup | nd [= x 


Install Python 3.5.2 (64-bit) 


Select Install Now to install Python with default settings, or choose 
Customize to enable or disable features. 


9 Install Now 
C:\Users\jiaxuan\AppData\Local\Programs\Python\Python35 


Includes IDLE, pip and documentation 
Creates shortcuts and file associations 


一 Customize installation 
Choose location and features 


[7] Install launcher for all users (recommended) 


windows 7 回 Add Python 3.5 to PATH 





图 2-5 


选择 Customize installation (H E X ZI) ， 进 入 下 一 步 。 如 图 2-6 
所 示 ， 可 以 看 出 Python 包 自 带 pip 命 令 。 


e Python 3.5.2 (64-bit) Setup icai — x 


Optional Features 


M Documentation 


tcl/tk and IDLE 


nstalls tkinter and the IDLE development environment 


[7] Python test suite 


nstalls the standara library test suite 


[7] py launcher © for all users (requires elevation) 


Installs the global ‘py’ launcher to make it easier to start Python 


python 
windows 





图 2-6 





然后 ， 等 待 安装 完成 ， 再 到 PowerShell 中 输入 python， 看 到 进入 终 
问 的 命令 提示 则 代表 python 安 装 成 功 。 在 “开始 ”->“ 所 有 程序 ?下 也 可 以 
找到 Python 终端 。 安 闭 成 功 后 的 界面 如 图 2-7 所 示 。 


图 2-7 


TensorFlow 的 Windows 安 装 也 分 为 CPU 版 本 和 GPU 上 版本， 下面 来 分 
别 介绍 


(1) CPU 版 本 安装 。 在 PowerShell 中 执行 如 下 命令 ， 默 认 安 装 
TensorFlow 1.1.0 版 本 及 相关 依赖 。 


C:\> pip install tensorflow--1.1.0 


安装 完成 后 如 图 2-8 所 示 。 


图 2-8 


(2) GPU 版 本 安装 。 如 果 读 者 的 机 器 文 持 安装 GPU 版 本 ， 请 先 安 
装 如 下 两 个 驱动 : CUDA l 和 CuDNN DBP] (后 者 需要 注册 NVIDIA 用 
户 ， 并 加 入 CuDNN 开 发 组 ， 然 后 填 和 若干 问卷 ， 才 可 以 下 载 ) 。 选 择 下 
载 版 本 时 要 注意 与 CUDA 版 本 匹配 。 解 压 后 保存 至 CUDA 的 安装 目录 
下 。 然 后 ， 安 装 GPU 版 本 ， 安 装 命令 如 下 : 


C:\> pip install tensorflow-gpu==1.1.0 





2. 运行 TensorFlow 


在 微软 小 娜 中 ， 搜 索 “python”， 直 接 模糊 匹配 ， 调 出 命令 窗口 ， 输 
入 测试 代码 : 
>>>import tensorflow as tf 


>>>sess = tf.Session() 
>>>a = tf.constant(10) 


>>>b = tf.constant(22) 
>>>print(sess.run(a + b)) 
32 





正确 输出 结果 32， 安 装 完毕 。 


2.3 ”基于 Java 的 安装 


基于 Java 的 方式 安装 ， 可 以 参照 TensorFlow 官 方 GitHub 的 安装 方法 
[6] 


我 们 需要 下 载 JAR (Java ARchive) libtensorflow-1.1.0-rc2.jarflliz fT 
TensorFlow 需 要 的 本 地 库 。 这 些 都 可 以 直接 从 官方 GitHub 上 下 载 ， 如 图 
2-9 所 示 。 





1. Download the Java archive (JAR): libtensorflow.jar (optionally, the Java sources: libtensorflow-src.jar). 


2. Download the native library. GPU-enabled versions required CUDA 8 and cuDNN 5.1. For other versions, the native 
library will need to be built from source (see below). 


o Linux: CPU-only, GPU-enabled 
o OS X: CPU-only, GPU-enabled 


图 2-9 


里 仍然 用 Mac OS X 系 统 ， 下 载 后 的 文件 如 下 : 


libtensorflow-1.1.0-rc2.jar 
libtensorflow jni-cpu-darwin-x86 64-1.1.0-rc2.tar.gz 





对 libtensorflow_jni-cpu-darwin-x86_64-1.1.0-rc2.tar.gz 进 行 解压 ， 解 
压 到 当前 目录 jni。 





tar zxvf libtensorflow_jni-cpu-darwin-x86_64-1.1.0-rc2.tar.gz -C ./jni 


这 样 就 完成 了 TensorFlow 的 Java 安 装 。 下 面 我 们 写 一 个 例子 来 测试 
一 下 ， 看 能 否 正确 输出 TensorFlow 的 版 本 。 将 下 面 代 码 写 入 文件 ， 命 名 
为 MyClass.java。 


import org.tensorflow.TensorFlow; 


public class MyClass { 
public static void main(String[] args) { 
System.out.println("I'm using TensorFlow version: " + TensorFlow.vers 


ion()); 
} 


} 





然后 进行 编译 : 


javac -cp libtensorflow-1.1.0-rc2.jar MyClass.java 





最 后 执行 ， 成 功 输出 所 采用 的 TensorFlow 版 本 ， 如 图 2-10 所 示 。 


(tf) 3 java java -cp libtensorflow-1.1.0-rc2.jar:. -Djava.library.path=./jni MyClass 





I'm using TensorFlow version: 1.1.0-rc2 


图 2-10 


2.4 MVR AG es 


从 源 代 码 编译 安装 ， 需 要 使 用 Bazel 编 译 工 具 。 我 们 先 安装 Bazel 工 
(。 在 需要 依赖 的 JDK 8 配 好 之 后 ， 在 Mac 笔 记 本 上 直接 执行 下 面 命 
， 安装 版 本 是 0.4.4: 





Fk 
A 


brew install bazel 








其 他 操作 系统 Ubuntu) 的 计算 机 对 Bazel 的 安装 ， 可 以 采用 apt- 
get 等 方式 。 


先进 入 tensorflow-1.1.0 的 源 代码 目录 ， 运 行 ./configure 脚 本 会 出 现 所 
采用 的 Python 路 径 、 是 否 用 HDFS、 是 否 用 Google Cloud Platform 等 选 
项 ， 读 者 可 以 根据 自己 的 需要 进行 配置 ， 或 者 直接 按 * 回 车 ”采用 默认 配 
置 。 











下 面 我 们 演示 使 用 CPU 版 本 的 编译 。 有 具体 如 下 : 





-> tensorflow-1.1.0 ./configure 

Please specify the location of python. [Default is /usr/local/bin/python]: 
Please specify optimization flags to use during compilation [Default is -m 
arch=native]: 

Do you wish to use jemalloc as the malloc implementation? (Linux only) [Y/ 
n] 

jemalloc enabled on Linux 

Do you wish to build TensorFlow with Google Cloud Platform support? [y/N] 
No Google Cloud Platform support will be enabled for TensorFlow 


Do you wish to build TensorFlow with Hadoop File System support? [y/N] 
No Hadoop File System support will be enabled for TensorFlow 
Do you wish to build TensorFlow with the XLA just-in-time compiler (experi 
mental)? [y/N] 
No XLA support will be enabled for TensorFlow 
Found possible Python library paths: 

/usr/local/Cellar/python/2.7.12 2/Frameworks/Python.framework/Versions/2 
.7/lib/python2.7/site-packages 

/Library/Python/2.7/site-packages 
Please input the desired Python library path to use. Default is [/usr/loc 
al/Cellar/ python/2.7.12 2/Frameworks/Python.framework/Versions/2.7/1lib/py 
thon2.7/site-packages] 


Using python library path: /usr/local/Cellar/python/2.7.12 2/Frameworks/Py 
thon. framework/Versions/2.7/lib/python2.7/site-packages 

Do you wish to build TensorFlow with OpenCL support? [y/N] 

No OpenCL support will be enabled for TensorFlow 

Do you wish to build TensorFlow with CUDA support? [y/N] 

No CUDA support will be enabled for TensorFlow 

Configuration finished 





随后 ， 我 们 执行 bazel 编 译 命 令 ， 因 为 编译 时 需要 耗费 大 量 的 内 存 ， 
加 入 --local_ resources 2048,4,1.0 来 限制 内 存 大 小 。 具 体 如 下 : 


bazel build --local resources 2048,4,1.0 -c opt //tensorflow/tools/pip pac 
kage:build pip package 
bazel-bin/tensorflow/tools/pip package/build pip package /tmp/tensorflow p 
kg 





然后 进入 /tmp/tensorflow_pkg， 可 以 看 到 生成 的 文件 tensorflow- 


1.1.0-cp27-cp27m-macosx_10_12_intel.whl， 直 接 安 装 如 下 : 


pip install /tmp/tensorflow pkg/tensorflow-1.1.0-cp27-cp27m-macosx 10 12 i 
ntel.whl 





使 用 GPU 版 本 的 编译 需要 配置 中 选择 使 用 CUDA， 然 后 填写 对 应 的 
CUDA SDK 版 本 等 ， 其 他 步骤 均 相 同 。 


2.5 依赖 的 其 他 模块 





TensorFlow 在 运行 中 需要 做 一 些 窍 阵 运 算 ， 时 篆 会 用 到 一 些 第 三 方 
模块 ， 此 外 ， 在 处 理 音 频 、 目 然 语 言 时 需要 也 要 用 到 一 些 模块 ， 建 议 一 
并 安装 好 。 本 书 “ 实 战 篇 ”中 会 大 量 用 到 这 些 扩展 。 





下 面 我 们 就 来 简单 介绍 TensorFlow 依 赖 的 一 些 模块 。 
2.5.1 numpy 


numpy 2e H RKF fit FH Ah EK EE RRR te,» Ee Python E EFE] 
iE ZEBRA «(nested list structure) 要 高 效 的 多 。 它 包括 : 


一 个 强大 的 NN 维 数组 对 象 Array; 

比较 成 熟 的 函数 库 ; 

用 于 整合 C/C++ 和 Fortran 代 码 的 工具 包 ，; 

实用 的 线性 代数 、 侍 里 叶 变 换 和 随机 数 生 成 函数 。 


numpy 模 块 的 安装 方法 如 下 : 


pip install numpy --upgrade 





2.5.2 matplotlib 


matplotlib 是 Python 最 著名 的 绘图 库 ， 它 提供 了 一 整套 和 MATLAB 相 
似 的 命令 API， 十 分 适合 交互 式 地 进行 制图 。 用 它 可 以 画 出 美丽 的 线 
图 、 散 点 图 、 等 高 线 图 、 条 形 图 、 柱 状 图 、3D 图 等 ， 而 且 还 可 以 方便 
地 将 它 作 为 绘图 控件 ， 骨 入 GUI 应 用 程序 中 。 在 后 面 的 实例 中 ， 需 要 可 
视 化 地 展现 训练 结果 或 者 中 间 的 特征 映射 ， 就 很 方便 。 


matplotlib 模 块 的 安装 方法 如 下 : 


pip install matplotlib --upgrade 





2.5.3 jupyter 


jupyter notebook 是 Ipython 的 升级 版 ， 能 够 在 浏览 器 中 创建 和 共享 代 
码 、 方 程 、 说 明文 档 。 界 面相 当 友 好 ， 功 能 也 很 强大 。 其 实 ，jupyter 实 
际 就 是 一 个 基于 Tornado 框 架 的 Web 应 用 ， 使 用 MQ 进行 消息 管理 。 


jupyter 模 块 的 安装 方法 如 下 : 


pip install jupyter --upgrade 





打开 jupyter notebook: 


jupyter notebook 





出 现 如 下 显示 : 


[W 06:02:13.434 NotebookApp] Widgets are unavailable. Please install widge 
tsnbextension or ipywidgets 4.0 

[I 06:02:13.454 NotebookApp] Serving notebooks from local directory: /User 
s/baidu/ Downloads/tensorflow-0.12/tensorflow 

[I 06:02:13.454 NotebookApp] 6 active kernels 

[I 06:02:13.454 NotebookApp] The Jupyter Notebook is running at: http://lo 
calhost:8888/ 

[I 06:02:13.454 NotebookApp] Use Control-C to stop this server and shut do 


wn all kernels (twice to skip confirmation). 





浏览 器 自动 打开 ， 局 动 成 功 ， 界 面 如 图 2-11 所 示 。 其 中 ， 在 
tensorflow-1.1.0/tensorflow/ examples/udacity 下 有 许多 扩展 名 为 .ipynb 的 
示例 文件 ， 读 者 可 以 自行 在 浏览 器 中 打开 和 学 习 。 


= Jupyter 


J contrib 


C3 java 


图 2-11 
2.5.4 scikit-image 


scikit-image ! 有 一 组 图 像 处 理 的 算法 ， 可 以 使 过 滤 一 张 图 片 变 得 
很 简单 ， 非 常 适合 用 于 对 图 像 的 预 处 理 。 


scikit-image 模 块 的 安装 方法 如 下 : 


pip install scikit-image --upgrade 





2.5.5 librosa 





librosa 是 用 Python 进 行 音 频 特 征 提 取 的 第 三 方 库 ， 有 很 多 方式 可 以 
提取 首 频 特征 。 


librosa 模 块 的 安装 如 下 : 


pip install librosa --upgrade 


2.5.6 nitk 


nltk P! 模块 中 包含 着 大 量 的 语料库 ， 可 以 很 方便 地 完成 很 多 自然 语 
言 处 理 的 任务 ， 包 括 分 词 、 词 性 标注 、 命 名 实体 识别 (NER) 及 句法 分 
析 。 





nltk 的 安装 方法 : 


pip install nltk --upgrade 





安装 完成 后 ， 需 要 导入 nltk 工 具 包 ， 下 载 nltk 数 据 源 ， 如 下 : 


>>> import nltk 
>>> nltk.download() 





2.5.7 keras 


Keras 是 第 一 个 被 添加 到 TensorFlow 核 心中 的 高 级 别 框架 ， 成 为 
Tensorflow 的 默认 API。 第 7 章 中 会 详细 讲解 Keras 的 使 用 。 


keras 模 块 的 安装 方法 如 下 : 


pip install keras --upgrade 





2.5.8 tflearn 


TFLeam 是 男 一 个 支持 TensorFlow 的 第 三 方 框架 ， 第 7 章 中 会 详细 讲 
解 TFLearn 的 使 用 。 


tflearn 模 块 的 安装 方法 如 下 : 


pip install git+https://github.com/tflearn/tflearn.git 
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本 章 介绍 了 TensorFlow 环 境 的 准备 ， 分 别 讲解 了 使 用 pip 命 令 、Java 
JAR 文 件 、 用 Bazel 工 具 对 源 代码 进行 编译 这 3 种 安装 方式 ， 以 及 在 pip 安 
装 方式 下 ， 在 Mac、UbuntwLinux、Windows 系 统 上 如 何 安装 CPU 版 本 
和 GPU 版 本 的 TensorFlow。 








最 后 ， 讲 了 一 些 第 用 扩展 的 作用 和 安装 ， 这 些 扩展 在 本 书 的 “实战 
篇 "中 会 用 到 。 





[1] https://github.com/tensorflow/tensorflow/tree/v1.1.0 

[2] https://pypi.python.org/pypi 

[3]  https://www.python.org/downloads/windows/ 

[4] https://developer.nvidia.com/cuda-downloads 

[5]  https://developer.nvidia.com/cudnn 

[6]  https://github.com/tensorflow/tensorflow/tree/master/tensorflow/java 
[7]  http://scikit-image.org/ 


[8]  http://www.nltk.org/ 


3 ”可 视 化 TensorFlow 





可 视 化 是 认识 程序 的 最 直观 方式 。 在 做 数据 分 析 时 ， 可 视 化 一 般 是 
数据 分 析 最 后 一 步 的 结果 呈现 。 把 可 视 化 放 到 “基础 篇 ”， 是 为 了 让 读者 
在 安装 完成 后 ， 就 能 先 看 一 下 TensorFlow 到 底 有 哪些 功能 ， 直 观感 受 一 
下 深度 学 习 的 学 习 成 果 ， 让 学 习 目 标 一 目 了 然 。 











3.1 PlayGround 


PlayGround |"! 是 一 个 用 于 教学 目的 的 简单 神经 网 络 的 在 线 演示 、 
实验 的 图 形 化 平台 ， 非 常 强大 地 可 视 化 了 神经 网 络 的 训练 过 程 。 使 用 它 
可 以 在 浏览 器 里 训练 神经 网 络 ， 对 Tensorflow 有 一 个 感性 的 认识 。 





PlayGround 界 面 从 左 到 右 由 数据 (DATA) 、 特 征 
(FEATURES) 、 神 经 网 络 的 隐藏 层 (HIDDEN LAYERS) 和 层 中 的 连 
接线 和 输出 COPUPUTO 几 个 部 分 组 成 ， 如 图 3-1 所 示 。 


Tinker With a Neural Network Right Here in Your Browser. 


Dont Worry, You Cant Break It. We Promise. 


5 Iterations Learning rate Activation Regularization Regularization rate Problem type 
bl 
000,000 0.03 x Tanh Y None Y 0 Y Classification 


DATA FEATURES + 一 2 HIDDEN LAYERS OUTPUT 


Which dataset do Which properties Test loss 0.522 
you want to use? do you want to 0.52 
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图 3-1 
3.1.1 数据 


在 二 维 平面 内 ， 点 被 标记 成 两 种 颜色 。 深 色 (电脑 屏幕 显示 为 莫 
色 ) 代表 正 值 ， 浅 色 (电脑 屏幕 显示 为 黄色 ) 代表 负 值 。 这 两 种 颜色 表 





示 想 要 区 分 的 两 类 ， 如 图 3-2 所 示 。 


DATA 


Which dataset do 
you want to use? 





图 3-2 
网 站 提供 了 4 种 不 同形 态 的 数据 ， 分 别 是 圆 形 、 异 或 、 高 斯 和 螺 


旋 ， 如 图 3-3 所 示 。 神 经 网 络 会 根据 所 给 的 数据 进行 训练 ， 再 分 类 规律 
相同 的 点 。 





PlayGournd 中 的 数据 配置 非常 灵活 ， 可 以 调整 噪声 (noise) 的 大 
小 。 图 3-4 展 示 的 是 噪声 为 0(、25 和 50 时 的 数据 分 布 。 
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图 3-4 


PlayGournd 中 也 可 以 改变 训练 数据 和 测试 数据 的 比例 Cratio) 。 
3-5 展 示 的 是 训练 数据 和 测试 数据 比例 为 1 : 9 和 9 : 1 时 的 情况 。 
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图 3-5 


此 外 ，PlayGournd 中 还 可 以 调整 输入 的 每 批 (batch) 数据 的 多 少 ， 
调整 范围 可 以 是 1 一 30， 就 是 说 每 批 进 入 神经 网 络 数据 的 点 可 以 1 一 30 
个 ， 如 图 3-6 所 示 。 


Batch size: 15 


—Q 7 


3.1.2 ”特征 


接 下 来 我 们 需要 做 特征 提取 (feature extraction) ， 每 一 个 点 都 有 X 
1 和 XX 5 两 个 特征 ， 由 这 两 个 特征 还 可 以 衍生 出 许多 其 他 特征 ， 如 和 1X1 
| X5X5^. X4X5. sin(X4). sin(X5)55, I l3-7Pros 


FEATURES 


Which properties 
do you want to 
feed in? 





图 3-7 


从 颜色 上 ，X1 左边 浅 色 《电脑 屏幕 显示 为 黄色 ) 是 负 ， 右 边 深 色 
(电脑 屏幕 显示 为 蓝 色 ) 是 正 ，X 1 表示 此 点 的 横 坐 标 值 。 同 理 ，X， 上 
边 深 色 是 正 ， 下 边 浅 色 是 负 ，X ,表示 此 点 的 纵 坐 标 值 。X1X1 EATE 
坐标 的 “抛物 线 ” 信 息 ，X，X, EKR TABER RIZ fa kh, XX» 是 
曲 抛物 面 ?的 信息 ，sin(X 1 ) 是 关于 模 坐 标的 “正弦 函数 ”信息 ，sin(X , pe 
关于 纵 坐 标的 “正弦 函数 ”信息 。 





因此 ， 我 们 要 学 习 的 分 类 器 (classifier) 就 是 要 结合 上 述 一 种 或 者 
多 种 特征 ， 画 出 一 条 或 者 多 条 线 ， 把 原始 的 赣 色 和 黄色 数据 分 开 。 
3.1.3 ”隐藏 层 


我 们 可 以 设置 隐藏 层 的 多 少 ， 以 及 每 个 隐藏 层 神经 元 的 数量 ， 如 图 
3-8 所 示 。 
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隐藏 层 之 间 的 连接 线 表 示 权 重 (weight) , RE CONO 表示 用 神 
经 元 的 原始 输出 ， 浅 色 《〈 黄 色 ) 表示 用 神经 元 的 负 输 出 。 连 接线 的 粗细 
和 深浅 表示 权重 的 绝对 值 大 小 。 鼠 标 放 在 线 上 可 以 看 到 具体 值 ， 也 可 以 
修改 值 ， 如 图 3-9 所 示 。 











X 一 人 
; | Click anywhere to edit. 
| Weight is -0.41| | 
B 
2 SX 
As 


修改 值 时 ， 同 时 要 考虑 激活 函数 ， 例 如 ， 当 换 成 Sigmoid 时 ， 会 发 
现 没 有 负 向 的 黄色 区 域 了 ， 因 为 Sigmoid 的 值 域 是 (0,1)， 如 图 3-10 所 示 。 
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图 3-10 


十 


v 


Activation 


Sigmoid 


2 HIDDEN 


下 一 层 神 经 网 络 的 神经 元 会 对 这 一 层 的 输出 再 进行 组 合 。 组 合 时 ， 
根据 上 一 次 预测 的 准确 性 ， 我 们 会 通过 反问 传播 给 每 个 组 合 不 同 的 权 
重 。 组 合 时 连接 线 的 粗细 和 深浅 会 发 生变 化 ， 连 接线 的 颜色 越 深 越 粗 ， 


表示 权重 越 大 。 


3.1.4 输出 


MUM ANCE Ch NAVAT RAS, BE AaB hie, 
背景 颜色 的 深浅 代表 可 能 性 的 强 弱 。 


我 们 选 定 螺旋 形 数据 ，7 个 特征 全 部 输入 ， 进 行 试验 。 选 择 只 有 3 个 
隐藏 层 时 ， 第 一 个 隐藏 层 设置 8 个 神经 元 ， 第 二 个 隐藏 层 设置 4 个 神经 
元 ， 第 三 个 隐藏 层 设置 2 个 神经 元 。 训 练 大 概 2 分 钟 ， 测 试 损失 〈test 
loss) 和 训练 损失 Ctraining loss) 就 不 再 下 降 了 。 训 练 完 成 时 可 以 看 
出 ， 我 们 的 神经 网 络 已 经 完美 地 分 离 出 了 橙色 点 和 蓝 色 点 ， 如 图 3-11 所 
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lines. 


L] Showtestdata —[ ] Discretize output 


图 3-11 





假设 我 们 只 输入 了 最 基本 的 前 4 个 特征 ， 给 足 多 个 隐藏 层 ， 看 看 神经 
网 络 的 表现 。 假 设 加 入 6 个 隐藏 屋 ， 前 4 层 每 屋 有 8 个 神经 元 ， 第 五 层 有 6 
个 神经 元 ， 第 六 层 有 2 个 神经 元 。 结 果 如 图 3-12 所 示 。 
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口 Showtestdata [] Discretize output 


我 们 发 现 ， 通 过 增加 神经 元 的 个 数 和 神经 网 络 的 隐藏 导数 ， 即 使 没 
有 输入 许多 特征 ， 神 经 网 络 也 能 正确 地 分 类 。 但 是 ， 假 如 我 们 要 分 类 的 
物体 是 猫 猎狗 狗 的 图 片 ， 而 不 是 肉眼 能 够 直接 识别 出 特征 的 黄 点 和 蓝 点 
呢 ? 这 时 候 怎样 去 提取 那些 真正 有 效 的 特征 呢 ? 





有 了 神经 网 络 ， 我 们 的 系统 自己 束 能 学 习 到 哪些 特征 是 有 效 的 、 哪 
些 是 无 效 的， 通过 自己 学 习 的 这 些 特征 ， 就 可 以 做 到 自己 分 类 ， 这 就 大 
大 提高 了 我 们 解决 语 首 、 图 像 这 种 复杂 抽象 问题 的 能 


3.2 TensorBoard !?! 


TensorBoard 是 TensorFlow 自 市 的 一 个 强大 的 可 视 化 工具 ， 也 是 一 个 


Web 应 用 程序 套件 。TensorBoard 目 前 支持 7 各 可视化 ， 即 SCALARS、 
IMAGES、AUDIO、GRAPHS、DISTRIBUTIONS、HISTOGRAMS 和 
EMBEDDINGS。 这 7 种 可 视 化 的 主要 功能 如 下 。 





SCALARS: 展示 训练 过 程 中 的 准确 率 、 损 失 值 、 权 重 / 偏 置 的 变化 
情况 。 

IMAGES: 展示 训练 过 程 中 记录 的 图 像 。 

AUDIO: 展示 训练 过 程 中 记录 的 音频 。 

GRAPHS: 展示 模型 的 数据 流 图 ， 以 及 训练 在 各 个 设备 上 消耗 的 内 
存 和 时 间 。 

DISTRIBUTIONS: 展示 训练 过 程 中 记录 的 数据 的 分 布 图 。 
HISTOGRAMS: 展示 训练 过 程 中 记录 的 数据 的 柱状 图 。 
EMBEDDINGS: 展示 词 向 量 〈 如 Word2vec) 后 的 投影 分 布 。 








TensorBoard 通 过 运行 一 个 本 地 服务 器 ， 来 监听 6006 端 口 。 在 浏览 


器 发 出 请 求 时 ， 分 析 训 练 时 记录 的 数据 ， 绘 制 训 练 过 程 中 的 图 像 。 在 

9.3 节 的 MNIST 示 例 中 ， 会 逐一 讲解 TensorBoard 的 图 像 绘制 ， 让 读者 更 
好 地 了 解 训练 的 过 程 中 发 生 了 什么 。 本 节 我 们 就 先 看 一 下 TensorBoard 
能 够 绘制 出 哪些 东西 。 





TensorBoard 的 可 视 化 界面 如 图 3-13 所 示 。 
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layeri 


layer2 


图 3-13 





从 图 3-13 中 可 以 看 到 ， 在 标题 处 有 上 述 几 个 可 视 化 面板 ， 下 面 通过 
一 个 示例 ， 分 别 介绍 这 些 可 视 化 面板 的 功能 。 


这 里 ， 我 们 运行 手写 数字 识别 的 入 门 例子 ， 如 下 : 


python tensorflow-1.1.0/tensorflow/examples/tutorials/mnist/mnist_with_sum 
maries.py 





然后 ， 打 开 TensorBoard 面 板 : 





tensorboard --logdir=/tmp/mnist/logs/mnist with summaries 


这 时 ， 输出 : 


Starting TensorBoard 39 on port 6006 
(You can navigate to http://192.168.0.101:6006) 





我 们 就 可 以 在 浏览 器 中 打开 http://192.168.0.101:6006， 查 看 面板 的 
各 项 功能 。 


3.2.1 SCALARS 面 板 


SCALARS 面 板 的 左边 是 一 些 选 项 ， 包 括 Split on undercores (H F 
划 线 分 开 显 示 ) ~ Datadownloadlinks 〈 数 据 下 载 链接 ) 、 
Smoothing (图 像 的 曲线 平滑 程度 ) 以 及 Horizontal Axis GKF) 的 表 
示 ， 其 中 水 平 轴 的 表示 分 3 种 〈STEP 代 表 人 迭代 次 数 ，RELATIVE 代 表 按 
照 训练 集 和 测试 集 的 相对 值 ，WALL 代 表 按 照 时 间 〉 ， 如 图 3-14 左 边 所 
示 。 图 3-14 右 边 给 出 了 准确 率 和 交 义 焕 损失 函数 值 的 变化 曲线 (迭代 次 
数 是 1000 次 ) 。 
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图 3-14 


SCALARS 面 板 中 还 绘制 了 每 一 层 的 偏 置 Cbiases) 和 权重 
(weights) 的 变化 曲线 ， 包 括 每 次 迭代 中 的 最 大 值 、 最 小 值 、 平 均值 和 
标准 差 ， 如 图 3-15 所 示 。 





layer1 





layer1/biases/summaries/max layer1/biases/summaries/mean 
s | 0.101 
0.160 4 0.101 
0.140 | 0.101 
| 0.100 
0.120 4 
0.0998 
0.100 0.0994 
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r1 E Po ug 
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layer1/biases/summaries/min layer1/biases/summaries/stddev_1 
0.100 | | 
| 0.0160 | 
0.0900 -| | 
0.0800 | 0.0120 
0.0700 | 8.000e-3 
0.0600 | 4.000e-3 
0.0500 -| 0.00 
0.000 200.0 400.0 600.0 800.0 1.000k 0.000 300.0 600.0 900.0 
PA rc» m 
La — La = 
图 3-15 


3.22 ”IMAGES 面板 


图 3-16 展 示 了 训练 数据 集 和 测试 数据 集 经 过 预 处 理 后 图 片 的 样子 。 


yd input_reshape 
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3.2.3 AUDIO 面板 


AUDIO 面 板 是 展示 训练 过 程 中 处 理 的 音频 数据 。 这 里 暂时 没有 找 
到 合适 的 例子 ， 读 者 了 解 即 可 。 


3.2.4 GRAPHS 面 板 


GRAPHS 面 板 是 对 理解 神经 网 络 结构 最 有 帮助 的 一 个 面板 ， 它 直观 
地 展示 了 数据 流 图 。 图 3-17 所 示 界 面 中 节点 之 间 的 连 线 即 为 数据 流 ， 
连 线 越 粗 ， 说 明 在 两 个 节点 之 间 流 动 的 张 量 (tensor) 越 多 。 
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图 3-17 


在 GRAPHS 面 板 的 左 侧 ， 可 以 选择 欠 代 步骤 。 可 以 用 不 同 
Color (HE) 来 表示 不 同 的 Structure 〈 整 个 数据 流 图 的 结构 ) ， 或 者 用 
不 同 Color 来 表示 不 同 Device〈 设 备 ) 。 例 如 ， 当 使 用 多 个 GPU 时 ， 各 个 
节点 分 别 使 用 的 GPU 不 同 。 


当 我 们 选择 特定 的 某 次 欠 代 《〈 如 第 899 次 ) 时 ， 可 以 显示 出 各 个 节 
点 的 Compute time 〈 计 算 时 间 ) 以 及 Memory (内存 消耗 ， 如 图 3-18 所 
示 。 
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图 3-18 
3.25 DISTRIBUTIONS i ix 


DISTRIBUTIONS [i f FU Be FREE GEA HISTOGRAMS AAW, A 
不 过 是 用 平面 来 表示 来 自 特定 层 的 激活 前 后 、 权 重 和 偏 置 的 分 布 。 图 3- 
19 展 示 的 是 激活 之 前 和 激活 之 后 的 数据 分 布 。 
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图 3-19 
3.2.6 HISTOGRAMS 


HISTOGRAMS 主 要 是 立体 地 展现 来 自 特定 层 的 激活 前 后 、 权 重 和 
偏 置 的 分 布 。 图 3-20 展 示 的 是 激活 之 前 和 激活 之 后 的 数据 分 布 。 
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图 3-20 
3.27 “EMBEDDINGS 面 板 


EMBEDDINGS 面 板 在 MNIST 这 个 示例 中 无 法 展示 ， 在 3.3 节 中 我 们 
会 用 Word2vec 例 子 来 看 一 下 这 个 面板 的 词典 入 投影 仪 。 


3.8 ”可视化 的 例子 








词 角 入 (word embedding) 在 机 器 学 习 中 非常 常见 ， 可 以 应 用 在 自 
然 语言 处 理 、 推 荐 系统 等 其 他 程序 中 。 下 面 我 们 就 以 Word2vec 为 例 来 看 
看 词 租 入 投影 仪 的 可 视 化 。 


TensorFlow 的 Word2Vec 有 basic、optimised 这 两 个 版 本 ， 我 们 重点 
来 看 这 两 个 版 本 的 可 视 化 表示 。 


3.3.1 ” 降 维 分 析 
本 节 将 以 GitHub 上 的 一 段 代 码 BI 为 例 ， 讲 述 可 视 化 的 思路 。 


Word2vec 采 用 text8 H 作为 文本 的 训练 数据 集 。 这 个 文本 中 只 包含 a 
一 z 字 符 和 空格 ， 共 27 种 字符 。 我 们 重点 讲述 产生 的 结果 可 视 化 的 样子 
以 及 构建 可 视 化 的 过 程 。 这 里 我 们 采用 的 是 Skip-gram 模 型 ， 即 根据 目 
标 词汇 预测 上 下 文 。 也 就 是 说 ， 给 定 n 个 词 围绕 着 词 w ， 用 w 来 预测 一 
个 句子 中 其 中 一 个 缺漏 的 词 c ， 以 概率 p (c |w ) 来 表示 。 最 后 生成 的 用 t- 
SNE 降 维 呈 现 词汇 接近 程度 的 关系 如 图 3-21 所 示 。 
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图 3-21 


在 word2vec_basic.py 中 ， 从 获得 数据 到 最 


程 分 为 5 步 。 


(1) 下 载 文件 并 读 取 数据 。 主 要 是 read_data 函 数 ， 





终 得 到 可 视 化 的 结果 的 过 


它 读 取 输入 的 


数据 ， 输 出 一 个 list， 里 面 的 每 一 项 就 是 一 个 词 。 


def read data(filename): 
with zipfile.ZipFile(filename) as f: 
data - tf.compat.as str(f.read(f.namelist()[0])).split() 
return data 





y 


这 里 的 data 就 类 似 于 [fawn', homomorphism’, 'nordisk', 'nunnery']. 


(2) 建立 一 个 词汇 字典 。 这 里 首先 建立 了 一 个 词汇 字典 ， 字 和 典 里 
是 对 应 的 词 和 这 个 词 的 编码 。 








vocabulary size = 50000 


def build dataset(words): 
count = [['UNK', -1]] 
count.extend(collections.Counter(words).most common(vocabulary size - 1) 
) 
dictionary - dict() 
for word, _ in count: 
dictionary[word] = len(dictionary) 
data = list() 
unk count = 6 
for word in words: 
if word in dictionary: 
index - dictionary[word] 
else: 
index = 0 # dictionary['UNK'] 
unk_count += 1 
data. append(index) 
count[@][1] = unk_count 
reverse dictionary = dict(zip(dictionary.values(), dictionary.keys())) 
return data, count, dictionary, reverse_dictionary 


data, count, dictionary, reverse dictionary = build dataset(words) 


| 


dictionary 里 存储 的 就 是 词 与 这 个 词 的 编码 ;reverse_dictionary 是 肥 
过 来 的 dictionary， 对 应 的 是 词 的 编码 与 这 个 词 ，data 是 list， 存 储 的 是 词 
对 应 的 编码 ， 也 就 是 第 一 步 中 得 到 的 词 的 list， 转 化 为 词 的 编码 表示 ; 
count 中 存储 的 是 词汇 和 词 频 ， 其 中 重复 数量 少 于 49 999 个 词 ， 
用 'UNK' 来 代表 稀有 词 。 有 具体 示例 如 下 ; 














data [5239, 3084, 12, 6, 195, 2, 3137, 46, 59, 156] 
count [['UNK', 418391], ('the', 1061396), ('of', 593677), ('and', 416629), 


('one', 411764), ('in', 372201), ('a', 325873), ('to', 316376), ('z 
ero', 264975), 
('nine', 250430)] 
dictionary {'fawn': 0, 'homomorphism': 1, 'nordisk': 2, 'nunnery': 3, ‘cht 
honic': 

4, 'sowell': 5, 'sonja': 6, 'showa': 7, 'woods': 8, 'hsv': 9) 
reverse dictionary (0: 'fawn', 1: 'homomorphism', 2: 'nordisk', 3: 'nunner 
y', 4: 

'chthonic', 5: 'sowell', 6: 'sonja', 7: 'showa', 8: ' 
woods', 9: 'hsv') 





(3) 产生 一 个 批 次 Chatch) 的 训练 数据 。 这 里 定义 generate_batch 
函数 ， 输 入 batch_size、num_skips 和 skip_window， 其 中 batch_size 是 每 个 
batch 的 大 小 ，num_skips 代 表 样 本 的 源 端 要 考虑 几 次 ，skip_windows 代 
表 左 右 各 考虑 多 少 个 词 ， 其 中 skip_windows*2=num_skips。 最 后 返回 的 
是 batch 和 ]abel，batch 的 形状 是 [batch_size]，label 的 形状 是 [batch_size， 


J， 也 就 是 用 一 个 中 心 词 来 预测 一 个 周边 词 。 





举 个 例子 。 假 设 我 们 的 句子 是 “我 在 写 一 首 歌 "， 我 们 将 每 一 个 字 用 
dictionary 中 的 编码 代替 ， 就 变 成 了 [123, 3084, 12, 6, 195, 90]， 假 设 这 里 
的 window_size 是 3， 也 就 是 只 预测 上 文 一 个 词 ， 下 文 一 个 词 ， 假 设 我 们 
的 generate_batch 函 数 从 3084 出 发 ， 源 端 重 复 2 次 ， 那 么 batch 就 是 [3084 
3084 12 12 6 6 195 195]，3084 的 上 文 是 123， 下 文 是 12; 12 的 上 文 是 











3084， 下 文 是 6; 6 的 上 文 是 12， 下 文 是 195; 195 的 上 文 是 6， 下 文 是 
90。 因 此 ， 对 应 输出 的 label 束 是 : 





(4) 构建 和 训练 模型 。 这 里 我 们 构建 一 个 Skip-gram 模 型 ， 有 具体 模 
型 搭建 可 以 参考 Skip-gram 的 相关 论文 。 执 行 结果 如 下 : 





Found and verified text8.zip 














Data size 17005207 tt 共有 17665267 个 单词 数 
Most common words (+UNK) [['UNK', 418391], ('the', 1061396), ('of', 593677 
)， 
('and', 416629), ('one', 411764) ] 
Sample data [5239, 3084, 12, 6, 195, 2, 3137, 46, 59, 156] ['anarchism', ' 
originated', 
'as', 'a', 'term', 'of', 'abuse', 'first', 'used', 'against'] 


3084 originated -> 5239 anarchism 

3084 originated -> 12 as 

12 as -> 3084 originated 

12 as -> 6a 

6 a -» 195 term 

6 a -> 12 as 

195 term -> 6a 

195 term -> 2 of 

Initialized 

Average loss at step 0 : 263.743347168 

Nearest to a: following, infantile, professor, airplane, retreat, implicat 

ed, 

ideological, epstein, 

Nearest to will: apokryphen, intercity, casta, nsc, commissioners, conjuri 
ng, 

stockholders, bureaucrats, 

Nearest to this: option, analgesia, quelled, maeshowe, comers, inevitably, 
kazan, burglary, 

Nearest to in: embittered, specified, deicide, pontiff, omitted, edifice, 
levitt, cordell, 

Nearest to world: intelligible, unguarded, pretext, cinematic, druidic, ag 

m, embarks, 

cingular, 

Nearest to use: hab, tabula, estates, laminated, battle, loyola, arcadia, 

discography, 

Nearest to from: normans, zawahiri, harrowing, fein, rada, incorrect, span 

dau, insolvency, 

Nearest to people: diligent, tum, cour, komondor, lecter, sadly, barnard, 
ebony, 

Nearest to it: fulfilled, referencing, paullus, inhibited, myra, glu, perp 
etuation, 

theologiae, 

Nearest to united: frowned, turkey, profusion, personifications, michelang 
elo, 

sisters, okeh, claypool, 

Nearest to new: infanta, fen, mizrahi, service, monrovia, mosley, taxonomy 
» year, 

Nearest to seven: tilsit, prefect, phyla, varied, reformists, bc, berthe, 
acceptance, 

Nearest to also: pri, navarrese, abandonware, env, plantinga, radiosity, o 

ops, manna, 

Nearest to about: lorica, nchen, closing, interpret, smuggler, viceroyalty 
, barsoom, caving, 

Nearest to his: introduction, mania, rotates, switzer, elvis, warped, chil 
li, 

etymological, 

Nearest to and: robson, fun, paused, scent, clouds, insulation, boyfriend, 


agreeable, 
Average loss at step 2000 : 113.878970229 
Average loss at step 4000 : 53.0354625027 
Average loss at step 6000 : 33.5644974816 
Average loss at step $8000 : 23.246792558 
Average loss at step 10000 : 17.7630081813 





(5) 用 t-SNE 降 维 呈 现 。 这 里 我 们 将 上 一 步 训 练 的 结果 做 了 一 个 t- 
SNE 降 维 处 理 ， 最 终 用 Matplotlib 绘 制 出 图 形 ， 图 形 见 图 3-19。 代 码 如 
T: 





def plot with labels(low dim embs, labels, filename-'tsne.png'): 
assert low dim embs.shape[0] »- len(labels), "More labels than embedding 


S 


plt.figure(figsize-(18, 18)) # in inches 
for i, label in enumerate(labels): 
X, y = low dim embs[i, :] 
plt.scatter(x, y) 
plt.annotate(label, 
Xy-(x, y), 
xytext-(5, 2), 
textcoords-'offset points', 
ha-'right', 
va-'bottom') 


plt.savefig(filename) 


try: 
from sklearn.manifold import TSNE 
import matplotlib.pyplot as plt 


tsne = TSNE(perplexity-30, n components-2, init-'pca', n iter-5000) 
plot only - 500 

low dim embs - tsne.fit transform(final embeddings[:plot only, :]) 
labels - [reverse dictionary[i] for i in xrange(plot only)] 

plot with labels(low dim embs, labels) 


except ImportError: 
print("Please install sklearn, matplotlib, and scipy to visualize embedd 
ings.") 








小 知识 





t-SNE 是 流 形 学 习 (manifold Learning) 方法 的 一 种 。 它 假设 数据 是 均匀 
采样 于 一 个 高 维 空间 的 低 维 流 形 ， 流 形 学 习 就 是 找到 高 维 空间 中 的 低 维 流 
形 ， 并 求 出 相应 的 冤 入 映射 ， 以 实现 维 数 约 简 或 者 数据 可 视 化 。 流 形 学 习 方 
法 分 为 线性 的 和 非 线 性 的 两 种 。 线 性 的 流 形 学 习 方法 如 主 成 份 分 析 
(PCA) ， 非 线性 的 访 形 学 习 方 法 如 等 距 特征 映射 〈Isomap ) 、 拉 普 拉 斯 特 
征 映 射 (Laplacian eigenmaps, LE) 、 局 部 线性 人 藤 入 (Locally-linear 
embedding, LLE) 等 。 

















3.3.2” 般 入 投影 仪 


在 3.2 节 中 我 们 说 到 ， 在 TensorBorad 的 面板 中 还 有 一 个 
EMBEDDINGS 面 板 ， 用 于 交互 式 可 视 化 和 分 析 高 维 数据 。 对 于 上 面 的 
word2vec_basic.py 文 件 ， 我 们 只 是 做 了 一 个 降 维 分 析 ， 下 面 我 们 就 来 看 
看 TensorBorad 在 词 租 入 中 的 投影 。 这 里 采用 官方 GitHub 开 源 实现 上 的 
例子 P1 进行 讲解 。 





这 里 我 们 自 定 义 了 两 个 操作 Coperator; OP) : SkipgramWord2vec 


和 NegTrainWord2vec。 为 什么 需要 上 自 定 义 操作 以 及 如 何 定 义 一 个 操作 将 
在 4.10 节 介绍 。 操 作 需 要 先 编译 ， 然 后 执行 。 这 里 采用 Mac OS 系统 ， 在 
g++ 命令 后 加 上 -undefined dynamic lookup ži: 


TF INC-$(python -c ‘import tensorflow as tf; print(tf.sysconfig.get includ 
e())") 

gt+ -std=c++11 -shared word2vec ops.cc word2vec kernels.cc -o word2vec_ops 
.sO -fPIC -I $TF INC -02 -D GLIBCXX USE CXX11 ABI-0 





在 当前 目录 下 生成 word2vec_ops.so 文 件 ， 然 后 执行 
word2vec_optimized.py， 生 成 的 模型 和 日 志文 件 位 于 /tmp/， 我 们 执行 : 


tensorboard --logdir=/tmp/ 





访问 http://192.168.0.101:6006/， 得 到 的 EMBEDDINGS 面 板 如 图 3-22 
PAR o 


TensorBoard A IM RA TRIBUTION i RAM EMBEDDINGS 





DATA zi ) | Points: 71291 | Dimension: 200 Show All Isolate Clear 
Dat selecti: selection 
h 
2 tensors found © a 
w.in X . j Search * ind.. ~ 








Sphereize data @ 
Checkpoint: /tmp/model.ckpt-2264203 


Metadata: 





x Y 
Component #1 ~ Component#2 ~ 








Component #3 ~ 


PCA is approximate. @ 
Total variance described: 10.1%. ! ` ` BOOKMARKS (0) @ ^ 


图 3-22 


在 EMBEDDINGS 面 板 左 侧 的 工具 栏 中 ， 可 以 选择 降 维 的 方式 ， 有 
T-SNE、PCA 和 CUSTOM 的 降 维 方式 ， 并 且 可 以 做 二 维 /三 维 的 图 像 切 
换 。 例 如 ， 切 换 到 t-SNE 降 维 工 具 ， 可 以 手动 调整 Dimension (困惑 
FE) ~ Learning rate (^52]36) 每 参数 ， 最 终生 成 10 000 个 点 的 分 布 ， 如 
图 3-23 所 示 。 


TensorBoard 





DATA Show Isolate Clear 











All Data 71291 selection 
会 points 
2 tensors found by 
win X /Search /图 -Jnd.-w 
Sphereize data 9 
Checkpoint: /tmp/model.ckpt-2264203 
Metadata: 
T-SNE PCA CUSTOM 
Dimension 20 @@ 30 
Perplexity@ 一 -一 人 88 
Learning 
—————9 - 
rate e 1 
Re-run Stop 
Iteration: 97 
For fast results, the data will be sampled 
down to 10,000 points. 
Ml How to use t-SNE effectively. BOAK OS - 





图 3-23 





在 EMBEDDINGS 面 板 的 右 侧 ， 可 以 采用 正则 表达 式 匹 配 出 某 些 
词 ， 直 观 地 看 到 词 之 间 的 余弦 距离 或 欧式 距离 的 关系 ， 如 图 3-24 所 示 。 


zi ) | Points: 71291 | Dimension: 200 | Selected 1111 points Show All isolate Clear 
Data 1111 points selection 


Search by 


© /*34 « /图 _ind.. ~ 
| 1111 matches. 


34 

340 
341 
342 
343 
344 
345 
346 





BOOKMARKS (0) @ ^ 


图 3-24 


任意 选择 一 个 点 ， 如 8129， 选 择 “isolate 101 points” 按 钮 ， 将 会 展示 
出 100 个 在 空间 上 最 接近 被 选择 点 的 词 ， 也 可 以 调整 展示 的 词 的 数量 ， 
如 图 3-25 所 示 。 
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图 3-25 


Show All Isolate 101 Clear 
Data points selection 


Foe 








Search B ind. v 
neighbors @ -@- —— 400 
distance COSINE EUCLIDIAN 
Nearest points in the original space: 

857 0.822 
660 0.877 
18478 0.887 
20951 0911 
5436 0.913 
9777 0.926 
6477 9777 929 
35586 0.948 
1679 0.948 
14998 0.949 
11080 0.950 
32343 0.951 
BOOKMARKS (0) 9 


BA ha 





可 视 化 是 研究 深度 学 习 的 一 个 重要 方向 ， 有 利于 我 们 直观 地 探究 训 
练 过 程 中 的 每 一 步 发 生 的 变化 。TensorFlow 提 供 了 强大 的 工具 
TensorBoard， 不 仪 有 完善 的 API 接 口 ， 而 且 提 供 的 面板 也 非常 丰富 。 在 
4.3.2 节 我 们 会 讲解 实现 TensorBoard 的 API。 在 第 17 章 我 们 还 会 讲 到 


TensorFlow 的 调 斌 工具， 调试 和 可 视 化 配合 起 来 ， 有 利于 精准 地 调整 模 
型 。 





[1]  http://playground.tensorflow.org/ 


D] 本 市 内 容 参 


考 https://github.com/tensorflow/tensorflow/blob/master/tensorflow/tensorboa 


[3] 
https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/ 


word2vec_basic.py 
[4]  http://mattmahoney.net/dc/textdata 


[5] 
https://github.com/tensorflow/models/blob/master/tutorials/embedding/wor 


第 4 章 ”TensorFlow 基 础 知识 


本 章 主要 参考 TensorFlow 官 方 网 站 上 的 新 手 入 门 H 和 扩展 教程 加 
， 讲 解 TensorFlow 的 基本 概念 。 本 章 从 系统 架构 、 设 计 理 念 、 编 程 模 
型 、 和 常用 API、 存 储 与 加 载 模型 、 线 程 及 队列 、 加 载 数据 、 自 定义 操作 
等 多 个 方面 进行 讲解 ， 相 信 通 过 本 章 的 学 习 ， 读 者 会 对 TensorFlow 的 全 





犁 有 一 个 基本 的 认识 。 本 章 的 学 习 对 理解 TensorFlow 的 原理 和 实战 非常 
重要 ， 读 者 需要 用 心 撕 摩 。 


41 系统 架构 


图 4-1 给 出 的 是 TensorFlow 的 系统 架构 ， 目 底 问 上 分 为 设备 层 和 网 络 
层 、 数 据 操 作 层 、 图 计算 层 、API 层 、 应 用 层 ， 其 中 设备 层 和 网 络 层 、 
数据 操作 层 、 图 计算 层 是 TensorFlow 的 核心 层 。 BI 





下 面 就 和 目 底 同上 详细 介绍 一 下 TensorFlow 的 系统 架构 。 最 下 层 是 网 
络 通信 层 和 设备 管理 层 。 网 络 通信 层 包括 gRPC (google Remote 
Procedure Call Protocol) 和 远程 直接 数据 存 取 (Remote Direct Memory 
Access, RDMA) ， 这 都 是 在 分 布 式 计 算 时 需要 用 到 的 。 设 备 管理 层 包 
括 TensorFlow 分 别 在 CPU、GPU、FPGA 等 设备 上 的 实现 ， 也 就 是 对 上 
层 提供 了 一 个 统一 的 接口 ， 使 上 层 只 需要 处 理 卷 积 等 逻辑 ， 而 不 需要 关 
心 在 硬件 上 的 卷 积 的 实现 过 程 。 








其 上 是 数据 操作 层 ， 主 要 包括 卷 积 函数 、 激 活 函 数 等 操作 (参见 
4778) 。 再 往 上 是 图 计算 层 ， 也 是 我 们 要 了 解 的 核心 ， 包 含 本 地 计算 
图 和 分 布 式 计算 图 的 实现 (本 章 会 做 基础 知识 的 梳理 ， 包 括 图 的 创建 、 
编译 、 优 化 和 执行 ， 本 书 的 “实战 篇 ”会 介绍 图 的 具体 应 用 ， 第 15 章 会 介 
分 布 式 计算 图 的 实现 ) 。 再 往 上 是 API 层 和 应 用 层 (4.4 节 和 4.7 节 会 介 
重点 常用 的 API 的 Python 实现 以 及 一 些 其 他 语言 的 实现 ， 本 书 的 “实战 
”会 重点 讲解 调用 API 层 对 深度 学 习 各 种 网 络 模型 的 实现 ) 。 


绍 
绍 
篇 








图 4-1 


42 Eis 
TensorFlow 的 设计 理念 主要 体现 在 以 下 两 个 方面 。 


CD 将 图 的 定义 和 图 的 运行 完全 分 开 。 因 此 ，TensorFlow 被 认为 
是 一 个 “符号 主义 ”的 库 。 








我 们 知道 ， 编 程 模式 通常 分 为 命令 式 编 程 (imperative style 
programming) 和 符号 式 编 程 (symbolic style programming) 。 命 令 式 
编程 就 是 编写 我 们 理解 的 通常 意义 上 的 程序 ， 很 容易 理解 和 调试 ， 按 照 
原 有 逻辑 执行 。 符 号 式 编程 涉及 很 多 的 舱 入 和 优化 ， 不 容易 理解 和 调 
试 ， 但 运行 速度 相对 有 上 所 提升 。 现 有 的 深度 学 习 框 架 中 ，Torch 是 典型 
的 命令 式 的 ，Caffe、MXNet 采 用 了 两 种 编程 模式 混合 的 方法 ， 而 
TensorFlow 完 全 采用 符号 式 编 程 。 








从 写 式 计算 一 般 是 先 定 义 各 种 变量 ， 然 后 建立 一 个 数据 流 图 ， 在 数 
气流 图 中 规定 各 个 变量 之 间 的 计算 关系 ， 最 后 需要 对 数据 流 图 进行 编 
译 ， 但 此 时 的 数据 流 图 还 是 一 个 空 元 儿 ， 里 面 没 有 任何 实际 数据 ， 只 有 
把 需要 运算 的 输入 放 进 去 后 ， 才 能 在 整个 模型 中 形成 数据 流 ， 从 而 形成 
输出 值 。 I 








例如 : 


t=8+9 
print(t) 


| 


在 传统 的 程序 操作 中 ， 定 义 了 t 的 运算 ， 在 运行 时 就 执行 了 ， 并 输 
出 17。 而 在 TensorFlow 中 ， 数 据 流 图 中 的 节点 ， 实 际 上 对 应 的 是 
TensorFlow API 中 的 一 个 操作 ， 并 没有 真正 去 运行 











import tensorflow as tf 
t = tf.add(8, 9) 
print(t) # 输出 Tensor("Add 1:0", shape=(), dtype=int32) 





定义 了 一 个 操作 ， 但 实际 上 并 没有 运行 。 


(2) TensorFlow 中 涉及 的 运算 都 要 放 在 图 中 ， 而 图 的 运行 只 发 生 
在 会 话 (session) 中 。 开 局 会 话 后 ， 就 可 以 用 数据 去 填充 节点 ， 进 行 运 
算 ; 关闭 会话 后 ， 就 不 能 进行 计算 了 。 因 此 ， 会 话 提 供 了 操作 运行 和 
Tensor 求 值 的 环境 。 例 如 : 





import tensorflow as tf 





# 创建 图 
tf.constant([1.0, 2.0]) 





[9] 
1 


b = tf.constant([3.0, 4.0]) 
c=a*b 
# 创建 会 话 





sess = tf.Session() 


# 计算 c 
print sess.run(c) # 进行 矩阵 乘法 ， 输 出 [3.，8.] 


sess.close() 








了 解 了 设计 理念 ， 接 下 来 看 一 下 TensorFlow 的 编程 模型 。 


43 ”编程 模型 Dl 


TensorFlow 是 用 数据 流 图 做 计算 的 ， 因 此 我 们 先 创 建 一 个 数据 流 图 
(也 称 为 网 络 结构 图 ) ， 如 图 4-2 所 示 ， 看 一 下 数据 流 图 中 的 各 个 要 


图 4-2 讲 述 了 TensorFlow 的 运行 原理 。 图 中 包含 输入 (input) 、 塑 
JÉ (reshape) 、Relu 层 (Relu layer) ~ Logit/z (Logit layer) 、 
Softmax, 22 X4 Ccross entropy) 、 梯 度 (gradient) 、SGD 训 练 (SGD 
Trainer) 等 部 分 ， 是 一 个 简单 的 回归 模型 。 








它 的 计算 过 程 是 ， 首 先 从 输入 开始 ， 经 过 塑 形 后 ， 一 层 一 层 进行 前 
癌 传 播 运算 。Relu 层 《隐藏 层 ) 里 会 有 两 个 参数 ， 即 wh Alby, ， 在 输 
出 前 使 用 ReLu (Rectified Linear Units) 激活 函数 做 非 线性 处 理 。 然 后 进 
入 Logit 层 〈 输 出 层 ) ， 学 习 两 个 参数 W m 和 bs 。 用 Softmax 来 计算 输出 
结果 中 各 个 类 别 的 概率 分 布 。 用 交 义 烂 来 度量 两 个 概率 分 布 ( 源 样本 的 
概率 分 布 和 输出 结果 的 概率 分 布 ) 之 间 的 相似 性 。 然 后 开始 计算 梯度 ， 
这 里 是 需要 参数 Wi 、bhi Wim 和 b uu, UREN. BJ 
入 SGD 训 练 ， 也 就 是 反 回 传播 的 过 程 ， 从 上 往 下 计算 每 一 层 的 参数 ， 依 
次 进行 更 新 。 也 就 是 说， 计算 和 更 新 的 顺序 为 bu 、Wom、bpt 和 Woh 














图 4-2 [6] 


顾名思义 ，TensorFlow 是 指 “ 张 量 的 流动 "?”。TensorFlow 的 数据 流 图 
是 由 节点 (node) Mið (edge) 组 成 的 有 问 无 环 图 (directed acycline 
graph, DAG) 。TensorFlow 由 Tensor 和 Flow 两 部 分 组 成 ，Tensor 〈 张 
量 ) 代表 了 数据 流 图 中 的 边 ， 而 Flow Gita) 这 个 动作 就 代表 了 数据 流 
图 中 节点 所 做 的 操作 。 


4.3.1 iW 


TensorFlow 的 边 有 两 种 连接 关系 : 数据 依赖 和 控制 依赖 UT 。 其 
中 ， 实 线 边 表示 数据 依赖 ， 代 表 数 据 ， 即 张 量 。 任 意 维度 的 数据 统称 为 
张 量 。 在 机 器 学 习 算 法 中 ， 张 量 在 数据 流 图 中 从 前 往 后 流动 一 加 就 完成 
了 一 次 前 向 传播 (forword propagation) ， 而 残 差 [8] 从 后 向 前 流动 一 遍 
就 完成 了 一 次 反问 传播 (backword propagation) 。 





还 有 一 种 特殊 边 ， 一 般 画 为 虚线 边 ， 称 为 控制 依赖 Ccontrol 
dependency) ， 可 以 用 于 控制 操作 的 运行 ， 这 被 用 来 确保 happens-before 
关系 ， 这 类 边 上 没有 数据 流 过 ， 但 源 节 点 必须 在 目的 节点 开始 执行 前 完 
成 执行 。 常 用 代码 如 下 : 


tf.Graph.control_dependencies(control_inputs) 





TensorFlow 文 持 的 张 量 具有 表 4-1 所 示 的 数据 属性 。 


表 4-1 


数据 类 型 Python 类 型 描述 
DT_FLOAT tf.float32 32 位 浮 点 型 
DT DOUBLE tf.float64 64 位 浮 点 型 


— 
— 


DT INT8 tf.int8 8 位 有 符号 整 型 





DT UINT8 8 位 无 符号 整 型 


可 变 长 度 的 字 节 数组 ， 每 一 个 张 量 元 素 都 是 一 个 字 
DT_STRING tf.string t 
节 数 组 























由 两 个 32 位 浮 点 数组 成 的 复数 : 实 部 和 虚 部 


有 关 图 及 张 量 的 实现 的 源 代 码 均 位 于 tensorflow- 
1.1.0/tensorflow/python/framework/ops.py， 后 面 会 详细 讲 。 




































































4.3.2 ”节点 


图 中 的 节点 又 称 为 算 子 ， 它 代表 一 个 操作 Coperation OP) , — 
般 用 来 表示 施加 的 数学 运算 ， 也 可 以 表示 数据 输入 (feed in) 的 起 点 以 
及 输出 (push out) 的 终点 ， 或 者 是 恋 取 / 写 入 持久 变量 (persistent 
variable) 的 终点 。 表 4-2 列 举 了 一 些 TensorFlow 实 现 的 算 子 。 算 子 文 持 
表 4-1 所 示 的 张 量 的 各 种 数据 属性 ， 并 且 需 要 在 建立 图 的 时 候 确 定 下 
2e 
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示例 


Add. Subtract. Multiply, Div. Exp. Log. Greater. Less, 





数学 运算 操作 


矩阵 运算 操作 MatMul. MatrixInverse, MatrixDeterminant 


有 状态 的 操作 Variable、Assign、AssignAdd 








神经 网 络 构建 操作 | SoftMax、Sigmoid、ReLU、Convolution2D 、MaxPool， 


检查 点 操作 Save. Restore 


队列 和 同步 操作  |Enqueue. Dequeue, MutexAcquire. MutexRelease 





js 制 张 量 流动 的 操 


Merge、 Switch、Enter、Leave、Nextlteration 





与 操作 相关 的 代码 位 于 tensorflow-1.1.0/tensorflow/python/ops/ 目 录 
以 数学 运算 为 例 ， 代 码 为 上 述 目录 下 的 math_ops.py， 里 面 定 义 了 
add. subtract, multiply. scalar mul、div、divide、truediv、floordiv 等 


数学 运算 ， 每 个 函数 里 面 调用 了 gen_math_ops.py 中 的 方法 ， 这 个 文件 是 


在 编译 〈 安 装 时 ) TensorFlow 时 生成 的 ， 位 于 Python 库 site- 
packages/tensorflow/python/ops/gen_math_ops.py 中 ， 随 后 又 调用 了 
tensorflow-1.1.0/tensorflow/core/kernels/ 下 面 的 核 函数 实现 。 再 例如 ， 数 
据 运 算 的 代码 位 于 tensorflow-1.1.0/tensorflow/python/ops/array_ops.py 

中 ， 里 面 定 义 了 concat、split、slice、size、rank 等 运算 ， 每 个 函数 都 调 
用 了 gen_array_ops.py 中 的 方法 ， 这 个 文件 也 是 在 编译 TensorFlow 时 生成 
的 ， 位 于 Python 库 site-packages/tensorflow/python/ops/gen_array_ops.py 
中 ， 随 后 又 调用 了 tensorflow-1.1.0/tensorflow/core/kernels/ 下 面 的 核 函 数 
实现 。 


4.3.3 ”其 他 概念 


除了 边 和 节点 ，TensorFlow 还 涉及 其 他 一 些 概念 ， 如 图 、 会 话 、 设 
备 、 变 量 、 内 核 等 。 下 面 就 分 别 介 绍 一 下 。 


1. 图 


oov 那么 ， 如 何 构 建 一 个 图 呢 ? 构建 图 
的 第 一 步 是 创建 各 个 节点 。 有 共 体 如 下 : 





import tensorflow as tf 








量 运 算 操 作 ， 产 生 一 个 1x2 ERE 
f.constant([[3.，3.]]) 











# 创建 一 个 常量 
matrix1 = t 





# 创建 另外 一 个 常量 运算 操作 ， 产 生 一 个 2x1 矩阵 
matrix2 = tf. ne ],[2. 15 





# 创建 一 个 矩阵 乘法 运算 ， 把 matrix1 和 matrix2 作 为 输入 
# 返回 值 product 代 表 和 矩阵 乘法 的 结果 


product = tf.matmul(matrix1, matrix2) 








启动 图 的 第 一 步 是 创建 一 个 Session 对 象 。 会 话 (session) 提供 在 图 
中 执行 操作 的 一 些 方法 。 一 般 的 模式 是 ， 建 立会 话 ， 此 时 会 生成 一 张 空 
图 ， 在 会 话 中 添加 节点 和 边 ， 形 成 一 张 图 ， 然 后 执行 。 


要 创建 一 张 图 并 运行 操作 的 类 ， 在 Python 的 API 中 使 用 tf.Session， 
在 C++ 的 API 中 使 用 tensorflow::Session。 示 例如 下 : 


with tf.Session() as sess: 
result = sess.run([product]) 
print result 





在 调用 Session 对 象 的 run() 方 法 来 执行 图 时 ， 传 入 一 些 Tensor， 这 个 
过 程 叫 填充 (feed) ; 返回 的 结果 类 型 根据 输入 的 类 型 而 定 ， 这 个 过 程 
叫 取 回 (fetch)。 


与 会 话 相 关 的 源 代码 位 于 tensorflow- 
1.1.0/tensorflow/python/client/session.py。 


会 话 是 图 交互 的 一 个 桥梁 ， 一 个 会 话 可 以 有 多 个 图 ， 会 话 可 以 修改 
图 的 结构 ， 也 可 以 往 图 中 注入 数据 进行 计算 。 因 此 ， 会 话 主 要 有 两 个 


API 接 口 : Extend 和 Run。Extend 操 作 是 在 Graph 中 添加 节点 和 边 ，Run 操 
作 是 输入 计算 的 节点 和 填充 必要 的 数据 后 ， 进 行 运算 ， 并 输出 运算 续 
FR o 


3. 设备 
设备 (device) 是 指 一 块 可 以 用 来 运算 并 且 拥 有 自己 的 地 址 空间 的 


硬件， 如 GPU 和 CPU。TensorFlow 为 了 实现 分 布 式 执行 操作 ， 充 分 利用 
计算 资源 ， 可 以 明确 指定 操作 在 哪个 设备 上 执行 。 具 体 如 下 : 


with tf.Session() as sess: 
# 指定 在 第 二 个 gpu 上 运行 
with tf.device("/gpu:1"): 
matrix1 = tf.constant([[3., 3.]]) 
matrix2 = tf.constant([[2.],[2.]]) 
= tf.matmul(matrix1, matrix2) 


product 





与 设备 相关 的 源 代码 位 于 tensorflow- 
1.1.0/tensorflow/python/framework/device.py . 


4. 变量 


变量 (variable) 是 一 种 特殊 的 数据 ， 它 在 图 中 有 固定 的 位 置 ， 不 
像 普 通 张 量 那样 可 以 流动 。 i 创建 一 个 变量 张 量 ， 使 用 tf.Variable() 
构造 冰 数 ， 这 个 构造 函数 需要 一 个 初始 值 ， 初 始 值 的 形状 和 类 型 决定 了 
这 个 变量 的 形状 和 类 型 : 














# 创建 一 个 变量 ， 初 始 化 为 标量 


a 








state = tf.Variable(@, name="counter") 





创建 一 个 常量 张 量 : 


input1 = tf.constant(3.@) 





TensorFlow 还 提供 了 填充 机 制 ， 可 以 在 构建 图 时 使 用 
tf.placeholder() 临 时 蔡 代 任意 操作 的 张 量 ， 在 调用 Session 对 象 的 run() 方 
法 去 执行 图 时 ， 使 用 填充 数据 作为 调用 的 参数 ， 调 用 结束 后 ， 填 充 数 据 
就 消失 。 代 码 示 例如 下 : 








input1 = tf.placeholder(tf.float32) 
input2 = tf.placeholder(tf.float32) 
output = tf.multiply(input1, input2) 
with tf.Session() as sess: 
print sess.run([output], feed _dict={input1:[7.], input2:[2.]}) 
# 输出 [array([ 14.], dtype=float32) ] 





与 变量 相关 的 源 代码 位 于 


tensorflow/tensorflow/python/ops/variables.py . 
5. FE 


我 们 知道 操作 operation) 是 对 抽象 操作 〈 如 matmul 或 者 add) 的 
一 个 统称 ， 而 内 核 Ckernel) 则 是 能 够 运行 在 特定 设备 〈 如 CPU、 
GPU) 上 的 一 种 对 操作 的 实现 。 因 此 ， 同 一 个 操作 可 能 会 对 应 多 个 内 
核 。 


当 目 定义 一 个 操作 时 ， 需 要 把 新 操作 和 内 核 通 过 注册 的 方式 添加 到 
系统 中 。4.10 市 会 用 一 个 示例 来 讲解 如 何 自 定义 一 个 操作 。 


44 HAPI 


了 解 TensorFlow 的 API 有 助 于 在 应 用 时 得 心 应 手 。 下 面 介绍 的 是 常 
用 API， 在 后 面 的 示例 中 基本 上 都 会 用 到 。 这 里 主要 介 红 genie 
API， 基 于 其 他 语言 的 API 也 大 同 小 异 ， 最 重要 的 是 理解 API 的 功能 及 
背后 的 原理 。 OU 








4.4.1 图 、 操 作 和 张 量 


TensorFlow 的 计算 表现 为 数据 流 图 ， 所 以 tf.Graph 类 中 包含 一 系列 表 
示 计 算 的 操作 对 象 (tf.Operation〉， 以 及 在 操作 之 间 流 动 的 数据 一 一 张 
量 对 象 (tf.Tensor) 。 与 图 相关 的 API 均 位 于 tf.Graph 类 中 ， 参 见 表 4-3。 


Ce 1 = 
tf.Graph.init () 创建 一 个 空 图 


将 某 图 设置 为 默认 图 ， 并 返回 一 个 上 下 文 
管理 器 。 如 果 不 显 式 添 加 一 个 默认 图 ， 系 
































tf.Graph.as default() 统 会 自动 设置 一 个 全 局 的 默认 图 。 所 设置 
的 默认 图 ， 在 模块 范围 内 定义 的 节点 都 将 
默认 加 入 默认 图 中 























j 的 设备 ， 并 返回 一 个 上 





tf.Graph.device(device_name_or_function) 


























为 节点 创建 层次 化 的 名 称 ， 并 返回 一 个 上 








tf.Graph.name_scope(name) 下 文 管理 器 


























tf.Operation 类 代表 图 中 的 一 个 市 点 ， 用 于 计算 张 量 数据 。 该 类 型 由 
节点 构造 器 (如 tf.matmul0 或 者 Graph.create_op()) 产生 。 例 如 ，c = 
tf.matmul(a, b) 创 建 一 个 Operation 类 ， 其 类 型 为 MatMul 的 操作 类 。 与 操 
作 相 关 的 API 均 位 于 tf.Operation 类 中 ， 参 见 表 4-4。 


tf.Tensor 类 是 操作 输出 的 符 写 句柄 ， 它 不 包含 操作 输出 的 值 ， 而 是 
提供 了 一 种 在 tf.Session 中 计算 这 些 值 的 方法 。 这 样 就 可 以 在 操作 之 间 构 


表 4-4 











建 一 个 数据 流连 接 ， 使 TensorFlow 能 够 执行 一 个 表示 大 量 多 步 计 算 的 图 
形 。 与 张 量 相关 的 API 均 位 于 tft.Tensor 类 中 ， 人 参见 表 4-5。 


表 4-5 








| 

张 量 在 操作 输出 中 的 索引 

产生 该 张 量 的 操作 

返回 使 用 该 张 量 的 操作 列表 


量 的 名 称 









































tf.Tensor.eval(feed_dict=None, 企 会 话 中 求 张 量 的 值 ， 需 要 使 用 sess.as_default0) 或 


session=None) 4 eval(session=sess) 
































tf. Tensor.get_shape() 返回 用 于 表示 张 量 的 形状 〈 维 度 ) 的 类 TensorShape 
tf. Tensor.set_shape(shape) 更 新 张 量 的 形状 





4.4.2 可视化 








在 第 3 章 中 ， 我 们 讲解 了 可 视 化 面板 的 功能 ， 但 如 何 编写 可 视 化 的 
程序 呢 ? 可 视 化 时 ， 需 要 在 程序 中 给 必要 的 节点 添加 摘要 
(summary) ， 摘 要 会 收集 该 节点 的 数据 ， 并 标记 上 第 几 步 、 时 间 惟 等 
标识 ， 写 入 事件 文件 Cevent file) 中 。tft.summary.FileWriter 类 用 于 在 目 
录 中 创建 事件 文件 ， 并 且 疝 文件 中 添加 摘要 和 事件 ， 用 来 在 
TensorBoard 中 展示 。9.3 市 将 详细 讲解 可 视 化 的 过 程 。 














表 4-6 给 出 了 可 视 化 常用 的 API 操 作 。 


表 4-6 








tf.summary.FileWriter.init (logdir, graph-None, 创建 FileWriter 和 事件 文件 ， 会 在 
max, queue- 10, flush_secs=120, graph_def=None) |logdir 中 创建 一 个 新 的 事件 文件 





tf.summary.FileWriter.add summary(summary, 





将 摘要 添加 到 事件 文件 
global_step=None) 








tf.summary.FileWriter.add_event(event) 向 事件 文件 中 添加 一 个 事件 


tf.summary.FileWriter.add_graph(graph, 








向 事件 文件 中 添加 一 个 图 
global_step=None, graph_def=None) 


tf.summary.FileWriter.get_logdir() 获取 事件 文件 的 路 径 











tf.summary.FileWriter.flush() 将 所 有 事件 都 写 入 磁盘 





将 事件 写 入 磁盘 ， 并 关闭 文件 操 
作 符 


tf.summary.FileWriter.close() 








tf.summary.scalar(name, tensor, collections- None) 包含 单个 标量 值 的 摘要 








tf.summary.histogram(name, values, 








六 图 的 摘要 











collections=None) 


tf.summary.audio(name, tensor, sample_rate, 





max_outputs=3, collections=None) 


tf.summary.image(name, tensor, max_outputs=3, 


险 出 包含 图 片 的 摘要 





collections= None) 











tf.summary.merge(inputs, collections=None, 合并 摘要 ， 包 含 所 有 输入 摘要 的 








name=None) 值 








45 变量 作用 域 


在 TensorFlow 中 有 两 个 作用 域 (scope) ， 一 个 是 name_scope， 男 
一 个 是 variable_scope。 它 们 究竟 有 什么 区 别 呢 ? 简 而 言 之 ，name_scope 
主要 是 给 variable_name 加 前 级 ， 也 可 以 给 op_name 加 前 级 ; name scope 


古 给 op_name 加 前 级 。 下 面 我 们 残 来 分 别 介 绍 。 





4.5.1 ”variable_scope 示 例 


variable_scope 变 量 作用 域 机 制 在 TensorFlow 中 主要 由 两 部 分 组 成 : 





v = tf.get variable(name, shape, dtype, initializer) # 通过 所 给 的 名 字 创建 或 
是 返回 一 个 变量 








E cA 


tf.variable scope(«scope name») # 为 变量 指定 命名 空间 








“4tf.get_variable_scope().reuse == False 时 ，variable_scope 作 用 域 只 
能 用 来 创建 新 变量 : 





with tf.variable scope("foo"): 
v = tf.get variable("v", [1]) 
v2 - tf.get variable("v", [1]) 
assert v.name == "foo/v:0" 





EXSFEFF 240 d ValueErrorf is, Al Avix Set oA me XX, 
但 tf.get_variable_scope().reuse 默 认为 False， 所 以 不 能 重用 。 


当 tf.get_variable_scope().reuse == True 时 ， 作 用 域 可 以 共享 变量 : 


with tf.variable scope("foo") as scope: 
v - tf.get variable("v", [1]) 
with tf.variable scope("foo", reuse-True): 
# 也 可 以 写成 : 
#scope.reuse_variables() 
v1 = tf.get_variable("v", [1]) 
assert v1 == v 





1. 获取 变量 作用 域 
可 以 直接 通过 tf.variable_scope0) 来 获取 变量 作用 域 : 


with tf.variable scope("foo") as foo scope: 
v = tf.get variable("v", [1]) 

with tf.variable scope(foo scope) 
w - tf.get variable("w", [1]) 





如 采 在 开局 的 一 个 变量 作用 域 里 使 用 之 前 预先 定义 的 一 个 作用 域 ， 
则 会 跳 过 当前 变量 的 作用 域 ， 保 持 预 完 存 在 的 作用 域 不 变 。 





with tf.variable scope("foo") as foo scope: 
assert foo scope.name == "foo" 

with tf.variable scope("bar") 
with tf.variable scope("baz") as other scope: 


assert other scope.name -- "bar/baz" 
with tf.variable scope(foo scope) as foo scope2: 
assert foo scope2.name == "foo" # 保持 不 变 





2. 变量 作用 域 的 初始 化 


变量 作用 域 可 以 默认 携 融 一 个 初始 化 器 ， 在 这 个 作用 域 中 的 子 作用 
域 或 变量 都 可 以 继承 或 者 重 写 父 作 用 域 初 始 化 器 中 的 值 。 方 法 如 下 : 





with tf.variable scope("foo", initializer-tf.constant initializer(0.4)): 
v = tf.get variable("v", [1]) 
assert v.eval() == 0.4 # 被 作用 域 初 始 化 
w = tf.get variable("w", [1], initializer-tf.constant initializer(0.3) 





assert w.eval() == 0.3 # 重 写 初始 化 器 的 值 
with tf.variable scope("bar"): 


v - tf.get variable("v", [1]) 
assert v.eval() == 0.4 # 继承 默认 的 初始 化 器 


with tf.variable scope("baz", initializer-tf.constant initializer(0.2) 


1]) 
# xS STE FAB 0 8 1588 BAI TEE 


v = tf.get variable("v", [ 
assert v.eval() == 0.2 








上 面 讲 的 是 variable_name， 屠 对 于 op_name 呢 ?在 variable_scope 作 


用 域 下 的 操作 ， 也 会 被 加 上 前 级 : 


with tf.variable scope("foo"): 
X = 1.0 + tf.get variable("v", [1]) 
assert x.op.name -- "foo/add" 





variable_scope 主 要 用 在 循环 神经 网 络 (RNN) 的 操作 中 ， 其 中 需要 
大 量 的 共享 变量 。 


4.5.2 name_scope 示 例 


TensorFlow 中 常常 会 有 数 以 干 计 的 节点 ， 在 可 视 化 的 过 程 中 很 难 一 
下 子 展示 出 来 ， 因 此 用 name_scope 为 变量 划分 范围 ， 在 可 视 化 中 ， 这 表 
示 在 计算 网 中 的 一 个 层级 。name_scope 会 影响 op_name， 不 会 影响 用 
get_variable() 创 建 的 变量 ， 而 会 影响 通过 Variable() 创 建 的 变量 。 因 此 : 





with tf.variable scope("foo"): 
with tf.name scope("bar"): 
tf.get variable("v", [1]) 
tf.Variable(tf.zeros([1]), namez'b') 
1.0 + v 
assert v.name == "foo/v:0" 
assert b.name == "foo/bar/b:60" 


assert x.op.name -- "foo/bar/add" 





可 以 看 出 ，tf.name_scope0 返 回 的 是 一 个 字符 串 ， 如 上 述 的 "bar"。 
name_scope 对 用 get_variableO) 创 建 的 变量 的 名 字 不 会 有 任何 影响 ， 而 
Variable0 创 建 的 操作 会 被 加 上 前 级 ， 并 且 会 给 操作 加 上 名 字 前 级 。 
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批 标准 化 (batch normalization, BN) 是 为 了 克服 神经 网 络 层 数 加 
深 导 致 难以 训练 而 诞生 的 。 我 们 知道 ， We 
深 ， 训 练 起 来 会 越 来 越 困 难 ， 收 敛 速 度 会 很 慢 ， 和 常常 会 导 臻 梯度 弥散 问 


jl (vanishing gradient problem) 。 





统计 机 器 学 习 中 有 一 个 ICS CInternal Covariate Shift) 理论 ， 这 是 一 
个 经 典 假设 : 源 域 (source domain) 和 目标 域 (target domain) 的 数据 

分 布 是 一 致 的 。 也 就 是 说 ， 训 练 数据 和 测试 数据 是 满足 相同 分 布 的 。 
这 是 通过 训练 数据 获得 的 模型 能 够 在 测试 集 获得 好 的 效果 的 一 个 基本 保 


隐 。 





Covariate Shift 是 指 训练 集 的 样本 数据 和 目标 样本 集 分 布 不 一 致 时 ， 
训练 得 到 的 模型 无 法 很 好 地 泛 化 〈generalization) 。 它 是 分 布 不 一 致 假 
设 之 下 的 一 个 分 文 问题 ， 也 就 是 指 源 域 和 目标 域 的 条 件 概率 是 一 致 的 ， 
但 是 其 边缘 概率 不 同 。 的 确 ， 对 于 神经 网 络 的 各 层 输 出， 在 经 过 了 层 内 
操作 后 ， 各 层 输出 分 布 就 会 与 对 应 的 输入 信和 号 分 布 不 同 ， 而 且 差 异 会 随 
着 网 络 深度 增 大 而 加 大 ， 但 是 每 一 层 所 指 疝 的 样本 标记 ClabeD 仍然 
是 不 变 的 。 





解决 思路 一 般 是 根据 训练 样本 和 目标 样本 的 比例 对 训练 样本 做 一 个 
矫正 。 因 此 ， 通 过 引入 批 标准 化 来 规范 化 05 某 些 层 或 者 所 有 层 的 输 
入 ， 从 而 固定 每 层 输入 信号 的 均值 与 方差 。 





4.6.1 方法 


批 标准 化 一 般 用 在 非 线性 映射 “激活 函数 ) 之 前 ， 对 x =Wu +b 做 规 
范 化 ， 使 结果 (输出 信号 各 个 维度 ) 的 均值 为 0， 方 差 为 1。 让 每 一 层 的 
输入 有 一 个 稳定 的 分 布 会 有 利于 网 络 的 训练 。 


4.6.2 ”优点 


批 标准 化 通过 规范 化 让 激活 函数 分 布 在 线性 区 间 ， 结 采 就 是 加 大 了 
梯度 ， 让 模型 更 加 大 胆 地 进行 梯度 下 降 ， 于 是 有 如 下 优点 : 





。 加 大 探索 的 步 长 ， 加 快 收 敛 的 速度 ; 
。 更 容易 跳出 局 部 最 小 值 ; 
。 破坏 原来 的 数据 分 布 ， 一 定 程度 上 缓解 过 拟 合 。 





因此 ， 在 遇 到 神经 网 络 收敛 速度 很 慢 或 梯度 爆炸 I (gradient 
explode) 等 无 法 训练 的 情况 下 ， 都 可 以 答 试 用 批 标准 化 来 解决 。 


4.6.3 ”示例 


我 们 对 每 层 的 Wx_plus_b 进 行 批 标准 化 ， 这 个 步骤 放 在 激活 函数 之 











# 计算 Nx_plus_b 的 均值 和 方差 ， 其 中 axes=[86] 表 示 想 要 标准 化 的 维度 

fc mean, fc var = tf.nn.moments(Wx plus b, axes=[@], ) 

scale = tf.Variable(tf.ones([out size])) 

shift = tf.Variable(tf.zeros([out size])) 

epsilon - 0.001 

Wx plus b = tf.nn.batch normalization(Wx plus b, fc mean, fc var, shift, 
scale, epsilon) 





# 也 就 是 在 做 : 
# Wx plus b 
# Wx plus b 


(Wx plus b - fc mean) / tf.sqrt(fc var + 0.001) 
Wx plus b * scale + shift 


更 多 关于 批 标准 化 的 理论 可 以 查看 Sergey loffe# Christian Szegedy 


的 论文 《Batch Normalization: Accelerating Deep Network Training by 


Reducing Internal Covariate Shift) 14] 。 


4.7 神经 元 函数 及 优化 方法 


本 节 主 要 介绍 TensorFlow 中 构建 神经 网 络 所 需 的 神经 元 函数 ， 包 括 
各 种 激活 函数 、 卷 积 尔 数 、 池 化 函数 、 损 失 函 数 、 优 化 器 等 。 读 者 阅读 
时 ， 务 必 把 本 节 介 绍 的 利用 API 记 熟 ， 这 有 利于 在 “实战 篇 ? 轻 轻 松 松 地 
构建 神经 网 络 进行 训练 。 








4.7.1 激活 函数 


激活 函数 (activation function) 运行 时 激活 神经 网 络 中 某 一 部 分 神 
经 元 ， 将 激活 信息 同 后 传 入 下 一 层 的 神经 网 络 。 神 经 网 络 之 所 以 能 解决 
非 线 性 问题 (如 语 首 、 图 像 识 别 ) ， 本 质 上 就 是 激活 函数 加 入 了 非 线 性 
因素 ， 弥 补 了 线性 模型 的 表达 力 ， 把 “ 沿 活 的 神经 元 的 特征 ”通过 函数 保 
留 并 映射 到 下 一 层 。 


因为 神经 网 络 的 数学 基础 是 处 处 可 微 的 ， 所 以 选取 的 激活 函数 要 能 
保证 数据 输入 与 输出 也 是 可 微 的 。 那 么 激活 函数 在 TensorFlow 中 是 如 何 
表达 的 呢 ? 


激活 函数 不 会 更 改 输入 数据 的 维度 ， 也 就 是 输入 和 输出 的 维度 是 相 
同 的 。TensorFlow 中 有 如 下 激活 函数 ， 它 们 定义 在 tensorflow- 
1.1.0/tensorflow/python/ops/nn.py 文 件 中 ， 这 里 包括 平滑 非 线性 的 激活 函 
数 ， 如 sigmoid、tanh、elu、softplus 和 softsign， 也 包括 连续 但 不 是 处 处 
可 微 的 函数 relu、relu6、crelu 和 relu x， 以 及 随机 正则 化 函数 dropout: 


tf.nn.relu() 
tf.nn.sigmoid() 





tf.nn.tanh() 
tf.nn.elu() 
tf.nn.bias add() 
tf.nn.crelu() 
tf.nn.relu6() 
tf.nn.softplus() 
tf.nn.softsign() 








tf.nn.dropout() # 防止 过 拟 合 ， 用 来 舍弃 某 些 神经 元 

















上 述 激活 函数 的 输入 均 为 要 计算 的 x (一 个 张 量 ) ， 输 出 均 为 与 x 数 
据 类 型 相同 的 张 量 。 常 见 的 激活 函数 有 sigmoid、tanh、relu 和 softplus 这 4 
种 。 下 面 我 们 就 来 逐一 讲解 。 


(1) sigmoid 函 数 。 这 是 传统 神经 网 络 中 最 音 用 的 激活 函数 之 一 
( 另 一 个 是 tanh〉， 对 应 的 公式 和 图 像 如 图 4-3 所 示 。 


使 用 方法 如 下 : 


a = tf.constant([[1.0, 2.0], [1.0, 2.0], [1.0, 2.0]]) 
sess - tf.Session() 
print sess.run(tf.sigmoid(a)) 





图 4-3 


sigmoid 函 数 的 优点 在 于 ， 它 的 输出 映射 在 (0,D) 内 ， 单 调 连续 ， 非 常 
适合 用 作 输 出 层 ， 并 且 求 导 比 较 容 易 。 但 是 ， 它 也 有 缺点 ， 因 为 软 饱和 
性 13， 一 旦 输入 落 入 饱和 区 ，f' (x ) 就 会 变 得 接近 于 0， 很 容易 产生 梯 
度 消失 US] 。 








(2) tanh 函 数 。 对 应 的 公式 和 图 像 如 图 4-4 所 示 。 


图 4-4 





tanh 函 数 也 具有 软 饱 和 性 。 因 为 它 的 输出 以 0 为 中 心 ， 收 敛 速度 比 
sigmoid 要 快 。 但 是 仍 无 法 解决 梯度 消失 的 问题 。 











(3) relu 函 数 是 目前 最 受 欢迎 的 激活 函数 。softplus 可 以 看 作 是 
ReLU 的 平滑 版 本 。relu 定 义 为 f(x )=max(x ,0)。softplus 定 义 为 f (x 
)=log(1+exp(x ))。 


由 图 4-5 可 见 ，relu 在 x <0 时 人 硬 饱 和 。 由 于 x >0 时 导数 为 1， 所 以 ， 
relu 能 够 在 x >0 时 保持 梯度 不 衰减 ， 从 而 缓解 梯度 消失 问题 ， 还 能 够 更 
快 地 收 伺 ， 并 提供 了 神经 网 络 的 稀 焉 表达 能 力 。 但 是 ， 随 独 训 练 的 进 
行 ， 部 分 输入 会 落 到 硬 饱 和 区 ， 导 致 对 应 的 权重 无 法 更 新 ， 称 为 “神经 
元 死亡 ”。 





使 用 示例 如 下 : 


a = tf.constant([-1.0, 2.0]) 
with tf.Session() as sess: 

b = tf.nn.relu(a) 

print sess.run(b) 





除了 relu 本 喘 外 ，TensorFlow 还 定义 了 relu6， 也 就 是 定义 在 
min(max(features, 0), 6) 的 tt.nn.relu6(features, name=None), LAAcrelu, 15 


WL XE tf.nn.crelu(features, name=None). 


(4) dropout 函 数 。 一 个 神经 元 将 以 概率 keep_prob 决 定 是 否 被 抑 
制 。 如 果 被 抑制 ， 该 神经 元 的 输出 就 为 0;， 如 果 不 被 抑制 ， 那 么 该 神经 


元 的 输出 值 将 被 放大 到 原来 的 /keep_prob 倍 。 H7 


在 默认 情况 下 ， 每 个 神经 元 是 否 被 抑制 是 相互 独立 的 。 但 是 否 被 抑 
制 也 可 以 通过 noise_shape 来 调节 。 当 noise_shape[i] == shape(X)[i] 时 ，x 
中 的 元 素 是 相互 独立 的 。 如 果 shape(x) = [k, l, m, n]，x 中 的 维度 的 顺序 
分 别 为 批 、 行 、 列 和 通道 ， 如 果 noise_shape = [k, 1, 1, n]， 那 么 每 个 批 和 
通道 都 是 相互 独立 的 ， 但 是 每 行 和 每 列 的 数据 都 是 关联 的 ， 也 就 是 说 ， 
要 不 都 为 0， 要 不 都 还 是 原来 的 值 。 





使 用 示例 如 下 : 


a = tf.constant([[-1.0, 2.0, 3.0, 4.0]]) 

with tf.Session() as sess: 
b = tf.nn.dropout(a, 0.5, noise shape = [1,4]) 
print sess.run(b) 
b - tf.nn.dropout(a, 0.5, noise shape - [1,1]) 
print sess.run(b) 








激活 函数 的 选择 





当 输 入 数据 特征 相差 明显 时 ， 用 tanh 的 效果 会 很 好 ， 且 在 循环 过 程 中 会 
不 断 扩 大 特征 效果 并 显示 出 来 。 当 特征 相差 不 明显 时 ，sigmoid 效 果 比 较 
好 。 同 时 ， 用 sigmoid 和 tanh 作 为 激活 函数 时 ， 需 要 对 输入 进行 规范 化 ， 否 则 
激活 后 的 值 全 部 都 进入 平坦 区 ， 隐 层 的 输出 会 全 部 趋同 ， 丧 失 原 有 的 特征 表 
达 。 而 relu 会 好 很 多 ， 有 时 可 以 不 需要 输入 规范 化 来 避免 上 述 情况 。 





























因此 ， 现 在 大 部 分 的 卷 积 神经 网 络 都 采用 relu 作 为 激活 函数 。 我 估计 大 
概 有 85% 一 90% 的 神经 网 络 会 采用 ReLU，10% 一 15% 的 神经 网 络 会 采用 











































































































tanh， 尤 其 用 在 自然 语言 处 理 上 。 











4.7.2 ZAR RA 


卷 积 函 数 是 构建 神经 网 络 的 重要 文 架 ， 是 在 一 批 图 像 上 扫描 的 二 
维 过 滤器 。9.4.1 节 会 详细 讲解 卷 积 的 过 程 。 卷 积 函 数 定义 在 tensorflow- 
1.1.0/tensorflow/python/ops F 的 nn_impl.py 和 mnn_ops.py 文 件 中 。 


tf.nn.convolution(input, filter, padding, strides=None, 
dilation_rate=None, name-None, data _format=None) 
tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, 
data_format= None, name=None) 
tf.nn.depthwise_conv2d (input, filter, strides, padding, rate=None, name=N 
one, 
data_format=None) 
tf.nn.separable conv2d (input, depthwise filter, pointwise filter, strides 
, padding, 
rate-None, name=None, data format-None) 
.nn.atrous conv2d(value, filters, rate, padding, name=None) 
.nn.conv2d transpose(value, filter, output shape, strides, padding-'SAME 


data format-'NHWC', name=None) 
.nn.convid(value, filters, stride, padding, use cudnn on gpu-None, 
data format- None, name=None) 
.nn.conv3d(input, filter, strides, padding, name=None) 
.-nn.conv3d_transpose(value, filter, output shape, strides, padding-'SAME 
name=None) 





下 面 就 分 别 加 以 说 明 。 


(1) tf.nn.convolution(input, filter, padding, strides=None, 
dilation_rate=None, name-None, data format =None) 这 个 函数 计算 N 维 卷 
积 的 和 。 


(2) tf.nn.conv2d(input, filter, strides, padding, 
use_cudnn_on_gpu=None, data_format=None, name=None) 这 个 函数 的 作 
用 是 对 一 个 四 维 的 输入 数据 input 和 四 维 的 卷 积 核 filter 进 行 操作 ， 然 后 对 
输入 数据 进行 一 个 二 维 的 卷 积 操作 ， 最 后 得 到 卷 积 之 后 的 结 


def conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, 
data_format=None, name=None) 

输入 : 

input: 一 个 Tensor。 数 据 类 型 必须 是 float32 或 者 float64 

filter: 一 个 Tensor。 数 据 类 型 必须 是 ijnput 相 同 

strides: 一 个 长 度 是 4 的 一 维 整数 类 型 数组 ， 每 一 维度 对 应 的 是 input 中 每 一 维 的 对 应 
移动 步 数 ， 
# ”比如 ，strides[1] 对 应 ijnput[1] 的 移动 步 数 
# padding: 一 个 字符 串 ， 取 值 为 SAME 或 者 VALID 
# padding='SAME': 仅 适 用 于 全 尺寸 操作 ， 即 输入 数据 维度 和 输出 数据 维度 相同 
4 — padding-'VALID: 适用 于 部 分 窗口 ， 即 输入 数据 维度 和 输出 数据 维度 不 同 
# 
# 
# 























# 
# 
# 
# 































































































use cudnn on gpu: 一 个 可 选 布尔 值 ， 默 认 情 况 下 是 True 
name: 《可 选 ) 为 这 个 操作 取 一 个 名 字 
输出 : 一 个 Tensor， 数 据 类 型 是 input 相 同 











使 用 示例 如 下 : 





input_data = tf.Variable( np.random.rand(10,9,9,3), dtype = np.float32 ) 
filter_data = tf.Variable( np.random.rand(2, 2, 3, 2), dtype = np.float32) 
y = tf.nn.conv2d(input_data, filter_data, strides = [1, 1, 1, 1], padding 
= 'SAME') 


打印 出 tf.shape(y) 的 结果 是 [10 9 9 2]. 


(3) tf.nn.depthwise_conv2d (input, filter, strides, padding, rate=None, 
name=None,data_format= None) 这 个 函数 输入 张 量 的 数据 维度 是 [batch， 
in height, in. width, in_channels]， 卷 积 核 的 维度 是 [filter_height， 
filter width, in channels, channel_multiplier]， 在 通道 in_channels 上 面 的 卷 
积 深度 是 1， deptliwise conv2d PA OA E B] AS AR AA h DF E 
in_channels 的 每 个 通道 上 《从 通道 1 到 通道 channel multiplier) ， 然 后 把 
所 以 的 结果 进行 汇总 。 最 后 输出 通道 的 总 数 是 in_channels * 


channel_multiplier. 


使 用 示例 如 下 : 


input data = tf.Variable( np.random.rand(10, 9, 9, 3), dtype = np.float32 


filter data = tf.Variable( np.random.rand(2, 2, 3, 5), dtype = np.float32) 
y = tf.nn.depthwise conv2d(input data, filter data, strides = [1, 1, 1, 1] 
, padding = 'SAME') 





这 里 打印 出 tf.shape(y) 的 结果 是 [10 9 9 15]. 


(4) tf.nn.separable_conv2d (input, depthwise filter, pointwise filter, 


strides, padding, rate=None, name=None, data_format=None) 是 利用 几 个 分 
离 的 卷 积 核 去 做 卷 积 。 在 这 个 API 中 ， 将 应 用 一 个 二 维 的 卷 积 核 ， 在 每 
个 通道 上 ， 以 深度 channel_mnultiplier 进 行 卷 积 。 


def separable conv2d (input, depthwise filter, pointwise filter, strides, 
padding, 


rate=None, name=None, data_format=None) 





# 特殊 参数 : 

4 — depthwise filter: 一 个 张 量 。 数 据 维 度 是 四 维 [filter_height, filter width, 
in_channels, 

# — channel multiplier]。 其 中 ，in_channels 的 卷 积 深度 是 1 

# pointwise filter: 一 个 张 量 。 数 据 维 度 是 四 维 [1，1，channel multiplier * in 
_channels, 
# — out channels]. HH, pointwise filter 是 在 depthwise filter 卷 积 之 后 的 混合 
卷 积 





































































































使 用 示例 如 下 : 


input data = tf.Variable( np.random.rand(10, 9, 9, 3), dtype = np.float32 
) 
depthwise filter = tf.Variable( np.random.rand(2, 2, 3, 5), dtype = np.flo 
at32) 

pointwise filter = tf.Variable( np.random.rand(1, 1, 15, 20), dtype = np.f 
loat32) 

# out_channels >= channel_multiplier * in_channels 

y = tf.nn.separable conv2d(input data, depthwise filter, pointwise filter, 


strides = [1, 1, 1, 1], padding = 'SAME') 





这 里 打印 出 tf.shape(y) 的 结果 是 [10 9 9 20]. 


(5) tf.nn.atrous_conv2d(value, filters, rate, padding, name=None) 计 


算 Atrous 卷 积 ， 又 称 孔 卷 积 或 者 扩张 卷 积 。 








使 用 示例 如 下 : 


input data = tf.Variable( np.random.rand(1,5,5,1), dtype = np.float32 ) 
filters = tf.Variable( np.random.rand(3,3,1,1), dtype = np.float32) 
y = tf.nn.atrous conv2d(input data, filters, 2, padding-'SAME') 





这 里 打印 出 tf.shape(y) 的 结果 是 [1 5 5 1]。 


(6) tf.nn.conv2d_transpose(value, filter, output_ shape, strides, 
padding='SAME', data. format-'NHWC', name-None) L183] 在 解 卷 积 网 络 
(deconvolutional network) 中 有 时 称 为 “ 反 卷 积 ， 但 实际 上 是 conv2d 的 
转 置 ， 而 不 是 实际 的 反 卷 积 。 








def conv2d_transpose(value, filter, output shape, strides, padding-'SAME', 


data format-'NHWC', name=None) 
# — output shape: 一 维 的 张 量 ， 表 示 反 卷 积 运算 后 输出 的 形状 
# 输出 : 和 value 一 样 维度 的 Tensor 























使 用 示例 如 下 : 


x = tf.random_normal(shape=[1,3,3,1]) 

kernel = tf.random normal(shape-[2,2,3,1]) 

y = tf.nn.conv2d_transpose(x,kernel, output_shape=[1,5,5,3], 
strides-[1,2,2,1],padding-"SAME") 





这 里 打印 出 tf.shape(y) 的 结果 是 [1 5 5 3]. 


(7) tf.nn.convid(value, filters, stride, padding, 
use_cudnn_on_gpu=None, data_format=None, name=None) 和 二 维 卷 积 类 
似 。 这 个 函数 是 用 来 计算 给 定 三 维 的 输入 和 过 滤器 的 情况 下 的 一 维 卷 
积 。 不 同 的 是 ， 它 的 输入 是 三 维 ， 如 [batch, in width, in_channels]。 卷 积 
核 的 维度 也 是 三 维 ， 少 了 一 维 filter_height， 如 [filter_width, in_channels, 
out_channels]。stride 是 一 个 正 整数 ， 代 表 卷 积 核 同 右 移动 每 一 步 的 长 
BE. 





(8) tf.nn.conv3d(input filter, strides, padding, name=None)#ll — 2k 4 
积 类 似 。 这 个 函数 用 来 计算 给 定 五 维 的 输入 和 过 滤器 的 情况 下 的 三 维 卷 
只 。 和 二 维 卷 积 相 对 比 : 


e input 的 Shape 中 多 了 一 维 in_depth， 形 状 为 Shape[batch, in. depth, 
in_height, in_width, in_channels]; 

e filterf‘Jshape'?} € f —?Efilter depth, Hifilter depth, filter height, 
filter_width 构 成 了 卷 积 核 的 大 小 ; 


e strides 中 多 了 一 维 ， 变 为 [strides_batch, strides_depth, strides_height, 
strides width, strides_channel]， 必 须 保证 strides[0] = strides[4] = 1. 


(9) tf.nn.conv3d_transpose(value, filter, output_shape, strides, 
padding- SAME', name=None) 和 二 维 反 卷 积 类 似 ， 不 再 歼 述 。 


4.7.3 池 化 函数 


在 神经 网 络 中 ， 池 化 函数 一 般 跟 在 卷 积 函数 的 下 一 层 ， 它 们 也 被 定 
义 在 tensorflow-1.1.0/ tensorflow/python/ops 下 的 nn.py 和 gen_nn_ops.py 文 
FE 


tf.nn.avg pool(value, ksize, strides, padding, data format-'NHWC', name=No 
ne) 
tf.nn.max pool(value, ksize, strides, padding, data format-'NHWC', name=No 
ne) 
tf.nn.max pool with argmax(input, ksize, strides, padding, Targmax=None, n 
ame-None) 
tf.nn.avg pool3d(input, ksize, strides, padding, name=None) 
tf.nn.max pool3d(input, ksize, strides, padding, name=None) 
tf.nn.fractional avg pool(value, pooling ratio, pseudo random-zNone, overla 
pping-None, 

deterministic=None, seed=None, seed2=None, name=No 


ne) 
tf.nn.fractional max pool(value, pooling ratio, pseudo_random=None, overla 


pping-None, 
deterministic-None, seed=None, seed2-None, name=No 
ne) 
tf.nn.pool(input, window shape, pooling type, padding, dilation rate-None, 
strides=None, 
name=None, data_format=None) 











池 化 操作 是 利用 一 个 矩阵 窗口 在 张 量 上 进行 扫描 ， 将 每 个 矩阵 窗口 
中 的 值 通 过 取 最 大 值 或 平均 值 来 减少 元 素 个 数 。 每 个 池 化 操作 的 矩阵 窗 
口 大 小 是 由 ksize 指 定 的 ， 并 且 根 据 步 长 strides 决 定 移 动 步 长 。 下 面 束 分 
别 来 说 明 。 








(1) tf.nn.avg_pool(value, ksize, strides, padding, 
data_format="NHWC', name=None). ix^ PX Rit eK BR AE 
均值 。 


def avg pool(value, ksize, strides, padding, data format-'NHWC', name=None 


输入 : 
value: 一 个 四 维 的 张 量 。 数 据 维度 是 [batch，height，width，channels ] 
ksize: 一 个 长 度 不 小 于 4 的 整 型 数组 。 每 一 位 上 的 值 对 应 于 输入 数据 张 量 中 每 一 维 的 窗 
对 应 值 
strides: 一 个 长 度 不 小 于 4 的 整 型 数组 。 该 参数 指定 滑动 窗口 在 输入 数据 张 量 每 一 维 
TER 
padding: 一 个 字符 串 ， 取 值 为 SAME 或 者 VALID 
data format: 'NHWC' 代 表 输 入 张 量 维度 的 顺序 ，N 为 个 数 ，H 为 高 度 ，W 为 宽度 ，C 为 通 
道 数 (RGB 三 
通道 或 者 灰 度 单 通 道 ) 
name (PJ) : 为 这 个 操作 取 一 个 名 字 
# 输出 : 一 个 张 量 ， 数 据 类 型 和 value 相 同 
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使 用 示例 如 下 : 





input_data = tf.Variable( np.random.rand(10,6,6,3), dtype = np.float32 ) 
filter_data = tf.Variable( np.random.rand(2, 2, 3, 10), dtype = np.float32 


y = tf.nn.conv2d(input_data, filter_data, strides = [1, 1, 1, 1], padding 
= 'SAME') 


output = tf.nn.avg pool(value = y, ksize = [1, 2, 2, 1], strides = [1, 1, 
1, 1], 


padding -'SAME') 





上 述 代码 打印 出 tf.shape(output) 的 结果 是 [10 6 6 10]。 计 算 输 出 维度 
的 方法 是 : shape(output) = (shape(value) - ksize + 1) / strides。 


(2) tf.nn.max_pool(value, ksize, strides, padding, 


data, format-"NHWC', name=None)。 这 个 函数 是 计算 池 化 区 域 中 元 素 的 
最 大 值 。 


使 用 示例 如 下 : 


input_data = tf.Variable( np.random.rand(10,6,6,3), dtype = np.float32 ) 
filter_data = tf.Variable( np.random.rand(2, 2, 3, 10), dtype = np.float32 
) 

y = tf.nn.conv2d(input data, filter data, strides = [1, 1, 1, 1], padding 
= 'SAME') 

output = tf.nn.max_pool(value = y, ksize = [1, 2, 2, 1], strides = [1, 1, 
1, 1], 


padding -'SAME') 





上 述 代码 打印 出 tf.shape(output) 的 结果 是 [10 6 6 10]. 


(3) tf.nn.max_pool_with_argmax(input, ksize, strides, padding, 


Targmax = None, name=None)。 这 个 函数 的 作用 是 计算 池 化 区 域 中 元 素 
的 最 大 值 和 该 最 大 值 所 在 的 位 置 。 


在 计算 位 置 argmax 的 时 候 ， 我 们 将 input 铺 平 了 进行 计算 ， 所 以 ， 如 
果 input = [b, y, x, cj， 那么 索引 位 置 是 ((b height + y) width + x) * 


channels + c. 


使 用 示例 如 下 ， 该 函数 只 能 在 GPU 下 运行 ， 在 CPU 下 没有 对 应 的 函 
数 实现 : 


input_data = tf.Variable( np.random.rand(10,6,6,3), dtype = tf.float32 ) 
filter_data = tf.Variable( np.random.rand(2, 2, 3, 10), dtype = np.float32 
) 


y = tf.nn.conv2d(input_data, filter_data, strides = [1, 1, 1, 1], padding 
= 'SAME') 
output, argmax = tf.nn.max_pool_with_argmax(input = y, ksize = [1, 2, 2, 1 


], 
strides = [1, 1, 1, 1], paddin 


g = 'SAME') 





返回 结果 是 一 个 张 量 组 成 的 元 组 Coutput, argmax) , output iiti 
化 区 域 的 最 大 值 ，argmax 的 数据 类 型 是 Targmax， 维 度 是 四 维 。 





(4) tft.nn.avg_pool3d0 和 tt.nn.max_pool3d0 分 别 是 在 三 维 下 的 平均 
池 化 和 最 大 池 化 。 


(5) tf.nn.fractional_avg_poolO 和 tt.nn.fractional_max_pool0 分 别 是 





在 三 维 下 的 平均 池 化 和 最 大 池 化 。 


(6) tf.nn.pool(input, window_shape, pooling_type, padding, 
dilation_rate=None, strides=None, name=None, data_format=None). iX4* 


函数 执行 一 个 N 维 的 池 化 操作 。 
4.7.4 ”分 类 函数 


TensorFlow 中 常见 的 分 类 函数 主要 有 
sigmoid cross entropy with logits. softmax. log softmax. 
softmax cross entropy with logits&$, ČJE EZE X fEtensorflow- 


1.1.0/tensorflow/python/opsH]nn.py Inn. ops.py X fF . 


.sigmoid cross entropy with logits(logits, targets, name-None) 
.softmax(logits, dim=-1, name=None) 

.log softmax(logits, dim=-1, name=None) 

.softmax cross entropy with logits(logits, labels, dim=-1, name=None) 
.Sparse softmax cross entropy with logits(logits, labels, name=None) 





BRAT I — DERE 


(1) tf.nn.sigmoid cross entropy with logits(logits, targets, 


name-None): 





def sigmoid cross entropy with logits(logits, targets, name=None): 

# 输入 : logits:[batch size, num classes],targets:[batch size, size].logits 
用 最 后 一 

# 层 的 输入 即 可 























# 最 后 一 层 不 需要 进行 sigmoid 运 算 ， 此 函数 内 部 进行 了 sigmoid 操 作 
# 输出 : loss [batch size, num classes] 








这 个 函数 的 输入 要 格外 注意 ， 如 果 采 用 此 函数 作为 损失 函数 ， 在 神 





经 网 络 的 最 后 一 层 不 需要 进行 sigmoid 运 算 。 





(2) tf.nn.softmax(logits, dim=-1, name=None) 计 算 Softmax 激 活 ， 也 


it softmax = exp(logits) / reduce_sum(exp(logits), dim). 


(3) tf.nn.log_softmax(logits, dim=-1, name=None)it $ilog softmaxi&X 
活 ， 也 就 是 logsoftmax = logits - log(reduce sum(exp(logits), dim)). 


(4) tf.nn.softmax_cross_entropy_with_logits(_sentinel=None, 


labels=None, logits=None, dim=-1, name =None): 


def softmax cross entropy with logits(logits, targets, dim=-1, name=None): 
# 输入 : logits and labels Jj7j[batch size, num classes] 
# 输出 : loss:[batch size], "Ei fxfrllébatchrP AERA SUR 














(5) tf.nn.sparse softmax cross entropy with logits(logits, labels, 


name-None) : 





def sparse softmax cross entropy with logits(logits, labels, name=None): 


# 1ogits 是 神经 网 络 最 后 一 层 的 结果 
# 输入 : logits: [batch size, num classes] labels: [batch_size]， 必 须 在 [68， 
num_classes | 


# 输出 : loss [batch size]. Hime fee batch HEE AIC SCRS 











475 优化 方法 


如 何 加 速 神 经 网 络 的 训练 呢 ? 目前 加 速 训练 的 优化 方法 基本 都 是 基 
于 梯度 下 降 的 ， 只 是 细节 上 有 些 差 异 。 梯 度 下 降 是 求 函数 极 值 的 一 种 方 
法 ， 学 习 到 最 后 就 是 求 损失 函数 的 极 值 问 题 。 




















TensorFlow 提 供 了 很 多 优化 器 (optimizer) ， 我 们 重点 介绍 下 面 这 


8 个 : 


in.GradientDescentOptimizer 
in.AdadeltaOptimizer 
in.AdagradOptimizer 
in.AdagradDAOptimizer 
in.MomentumOptimizer 
in.AdamOptimizer 
in.FtrlOptimizer 


in.RMSPropOptimizer 





这 8 个 优化 器 对 应 8 种 优化 方法 ， 分 别 是 梯度 下 降 法 (BGD 和 
SGD) 、Adadelta 法 、Adagrad 法 (Adagrad 和 AdagradDAO) 、 


Momentum? (Momentum 和 和 Nesterov Momentum) 、Adam、Ftrl 法 和 
RMSProp 法 ， 其 中 BGD、SGD、Momentum 和 Nesterov Momentum 是 手 
动 指定 学 习 率 的 ， 其 余 算 法 能 够 自动 调节 学 习 率 。 


下 面 束 介绍 其 中 几 种 优化 方法 。 
1. BGD 法 


BGD 的 全 称 是 batch gradient descent， 即 批 梯度 下 降 。 这 种 方法 是 利 
用 现 有 参数 对 训练 集中 的 每 一 个 输入 生成 一 个 估计 输出 y; ， 然 后 跟 实际 
输出 y; 比较 ， 统 计 所 有 误差 ， 求 平均 以 后 得 到 平均 误差 ， 以 此 作为 更 新 
BANK. EMIS REN: 





(1) 提取 训练 集中 的 所 有 扩容 {x 1，.… xS }， 以 及 相关 的 输出 yi ; 
(2) 计算 梯度 和 误差 并 更 新 参数 。 


这 种 方法 的 优点 是 ， ed i da Hels RUE. JFH 
不 需要 逐渐 减少 学 习 率 ; dice. BER vs EHI BUG FO RH » 
随 着 训练 的 进行 ， ae. 


WA, BRIAR EDR MPI Chatch) ， 每 次 抽取 一 批 
数据 来 更 新 参数 ， 是 不 是 会 加 速 训练 呢 ? 这 就 是 最 常用 的 SGD。 





2. SGD 法 


SGD 的 全 称 是 stochastic gradient descent， 即 随机 梯度 下 降 。 因 为 这 
种 方法 的 主要 思想 是 将 数据 集 拆 分 成 一 个 个 批 次 (batch) ， 随 机 抽取 一 
个 批 次 来 计算 并 更 新 参数 ， 所 以 也 称 为 MBGD Cminibatch gradient 


descent) . 


SGD 在 每 一 次 迭代 计算 mini-batch 的 梯度 ， 然 后 对 参数 进行 更 新 。 
与 BGD 相 比 ，SGD 在 训练 数据 集 很 大 时 ， 仍 能 以 较 快 的 速度 收敛 。 但 
是 ， 它 仍然 会 有 下 面 两 个 缺点 。 





C1) 由 于 抽取 不 可 避免 地 梯度 会 有 误差 ， 需 要 手动 调整 学 习 率 
(learning rate) ， 但 是 选择 合适 的 学 习 率 又 比较 困难 。 尤 其 在 训练 时 ， 
我 们 第 利 想 对 第 出 现 的 特征 更 新 速度 快 一 些 ， 而 对 不 帝 出 现 的 特征 更 新 
速度 慢 一 些 ， 而 SGD 在 更 新 参数 时 对 所 有 参数 采用 一 样 的 学 习 率 ， 因 此 

无 法 满足 要 求 。 





(2) SGD 容 易 收 敛 到 局 部 最 优 ， 并 且 在 某 些 情况 下 可 能 被 困 在 蒜 





为 了 解决 学 习 率 固定 的 问题 ， 又 引入 了 Momentum 法 。 
3，Momentum 法 


Momentum 是 模拟 物理 学 中 动量 的 概念 ， 更 新 时 在 一 定 程度 上 保留 
之 前 的 更 新 方向 ， 利 用 当前 的 批 次 再 微调 本 次 的 更 新 参数 ， 因 此 引入 了 
一 个 新 的 变量 v〈 速 度 ) ， 作 为 前 几 次 梯度 的 素 加 。 因 此 ，Momentum 能 
够 更 新 学 习 率 ， 在 下 降 初 期 ， 前 后 梯度 方向 一 致 时 ， 能 够 加 速 学 习 ; 在 
下 降 的 中 后 期 ， 在 局 部 最 小 值 的 附近 来 回 谋 荡 时 ， 能 够 抑制 震荡 ， 加 快 
收敛 。 





4. Nesterov Momentum 法 


Nesterov Momentum? Hi Ilya Sutskever 在 Nesterov 工 作 的 启发 下 提出 


的 ， 是 对 传统 Momentum 法 的 一 项 改进 ， 其 基本 总 路 如 图 4-6 所 示 。 


m -一 - 1 号 线 标准 的 Momentum 
370 l 一 252% 跳跃 
ae ae put Tm 3 号 线 有 待 修正 的 梯度 
| 一 -一 4 号 线 累积 梯度 
图 4-6 [19] 








标准 Momentum 法 肖 先 计算 一 个 梯度 短 的 1 写 线 ) ， 然 后 在 加 速 更 
新 梯度 的 方 问 进行 一 个 大 的 跳跃 〈 长 的 1 号 线 ) ; Nesterov 项 首先 在 原来 
加 速 的 梯度 方向 进行 一 个 大 的 跳跃 (2 号 线 ) ， 然 后 在 该 位 置 计 算 梯 度 
E (3580) ， 然 后 用 这 个 梯度 值 修正 最 终 的 更 新 方向 〈4 号 线 ) 。 








上 面 介绍 的 优化 方法 都 需要 我 们 自己 设 定 学 习 率 ， 接 下 来 介绍 几 种 
自 适 应 学 习 率 的 优化 方法 。 





5. Adagrad 法 


Adagrad 法 能 够 自 适应 地 为 各 个 参数 分 配 不 同 的 学 习 率 ， 能 够 控制 
每 个 维度 的 梯度 方向 。 这 种 方法 的 优点 是 能 够 实现 学 习 率 的 自动 更 改 ; 
如 果 本 次 更 新 时 梯度 大 ， 学 习 率 就 衰减 得 快 一 些 ， 如 果 这 次 更 新 时 梯度 
小 ， 学 习 率 衰减 得 就 慢 一 些 。 

















6. Adadelta 法 


Adagrad 法 仍然 存在 一 些 问 题 : 其 学 习 率 单调 递减 ， 在 训练 的 后 期 
学 习 率 非常 小 ， 并 且 需 要 手动 设置 一 个 全 局 的 初始 学 习 率 。Adadelta 法 
用 一 阶 的 方法 ， 近 似 模拟 二 阶 牛 顿 法 ， 解 决 了 这 些 问 题 。 


7. RMSprop 法 


RMSProp 法 与 Momentum 法 类 似 ， 通 过 引入 一 个 衰减 系数 ， 使 每 一 
回合 都 衰减 一 定 比例 。 在 实践 中 ， 对 循环 神经 网 络 (RNN) 效果 很 好 。 








8. Adam 法 


Adam 的 名 称 来 源 于 自 适 应 和 矩 估 计 P Cadaptive moment 
estimation) 。Adam 法 根据 损失 函数 针对 每 个 参数 的 梯度 的 一 阶 矩 估计 
和 二 阶 窍 估计 动态 调整 每 个 参数 的 学 习 率 。 


9. 各 个 方法 的 比较 


Karpathy 在 MNIST 数 据 集 上 用 上 述 几 个 优化 器 做 了 一 些 性 能 比较 ， 
发 现 如 下 规律 2 : 在 不 怎么 调整 参数 的 情况 下 ，Adagrad 法 比 SGD 法 和 
Momentum 法 更 稳定 ， 性 能 更 优 ， 精 调 参 数 的 情况 下 ， 精 调 的 SGD 法 和 
Momentum 法 在 收敛 速度 和 准确 性 上 要 优 于 Adagrad 法 。 


各 个 优化 器 的 损失 值 比较 结果 如 图 4-7 所 示 。 


图 4-7 


各 个 优化 器 的 测试 准确 率 比 较 如 图 4-8 所 示 。 


图 4-8 


各 个 优化 器 的 训练 准确 率 比 较 如 图 4-9 所 示 。 


想 要 更 深入 研究 各 种 优化 方法 ， 可 以 参考 《An overview of gradient 


descent optimization algorithms) !??! 。 
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上 上 。 那 么 ， 如 何 把 模型 存储 起 来 呢 ? 同 时 ， 对 于 一 个 已 经 存储 起 来 的 模 
型 ， 在 将 其 应 用 在 预测 数据 上 时 又 如 何 加 载 呢 ? 





TensorFlow 的 API 提 供 了 以 下 两 种 方式 来 存储 和 加 载 模型 。 


CD 生成 检查 点 文件 (checkpoint file) ， 扩 展 名 一 般 为 .ckpt， 通 
过 在 tf.train.Saver 对 象 上 调用 Saver.save() 生 成 。 它 包含 权重 和 其 他 在 程序 
中 定义 的 变量 ， 不 包含 图 结构 。 如 果 需 要 在 男 一 个 程序 中 使 用 ， 需 要 重 
新 创建 图 形 结构 ， 并 告诉 TensorFlow 如 何 处 理 这 些 权 重 。 





(2) 生成 图 协议 文件 (graph proto file) ， 这 是 一 个 二 进 制 文件 ， 
扩展 名 一 般 为 .pb， 用 tt.train.write_graphO 保 存 ， 只 包含 图 形 结构 ， 不 包 
含 权 重 ， 然 后 使 用 tt.import_graph_defO 来 加 载 图 形 。 

下 面 我 们 就 分 “模型 存储 ”和 “图 存储 ”来 介绍 这 两 种 方式 。 在 
TensorFlow 的 高 级 API， 如 Keras 中 ， 也 提供 了 更 高 级 的 语句 来 保存 和 加 
载 模型 ， 在 7.2.3 节 中 会 介绍 。 

4.8.1 模型 的 存储 与 加 载 


模型 存储 主要 是 建立 一 个 tf.train.Saver() 来 保存 变量 ， 并 且 指 定 保存 
的 位 置 ， 一 般 模型 的 扩展 名 为 .ckpt。 


下 面 我 们 定义 一 个 新 的 神经 网 络 ， 含 两 个 全 连接 层 和 一 个 输出 层 ， 


来 训练 MNIST 数 据 集 ， 并 把 训练 好 的 模型 存储 起 来 。 我 们 用 MNIST 数 
据 集 来 说 明 。 Ul 


1. 加 载 数据 及 定义 模型 
加 载 数据 及 定义 模型 的 代码 如 下 : 





# 加 载 数据 
mnist = input data.read data sets("MNIST data/", one hot-True) 
trX, trY, teX, teY - mnist.train.images, mnist.train.labels, mnist.test.im 
ages, 

mnist.test.labels 


- tf.placeholder("float", [None, 784]) 
= tf.placeholder("float", [None, 10]) 
初始 化 权重 参数 

h = init_weights([784, 625]) 

h2 = init_weights([625, 625]) 

o = init weights([625, 10]) 


# 定义 权重 函数 
def init weights(shape): 
return tf.Variable(tf.random normal(shape, stddev-0.01)) 





# 定义 模型 

def model(X, w h, w h2, w o, p keep input, p keep hidden): 
第 一 个 全 连接 层 
= tf.nn.dropout(X, p keep input) 
- tf.nn.relu(tf.matmul(X, w h)) 


h = tf.nn.dropout(h, p keep hidden) 
# 第 二 个 全 连接 层 

h2 = tf.nn.relu(tf.matmul(h, w_h2)) 
h2 = tf.nn.dropout(h2, p keep hidden) 








return tf.matmul(h2, w o) # 输 出 预测 值 





生成 网 络 模 型 ， 得 到 预测 值 ， 代 码 如 下 : 


p keep input = tf.placeholder("float") 
p keep hidden = tf.placeholder("float") 
py x = model(X, w h, w h2, w o, p keep input, p keep hidden) 





定义 损失 函数 ， 代 码 如 下 : 


cost = tf.reduce mean(tf.nn.softmax cross entropy with logits(py x, Y)) 
train op = tf.train.RMSPropOptimizer(0.001, 0.9).minimize(cost) 
predict op = tf.argmax(py x, 1) 





接 下 来 我 们 就 要 训练 刚才 定义 好 的 模型 ， 并 把 每 一 轮训 练 得 到 的 参 
数 都 存储 下 来 。 


2. 训练 模型 及 存储 模型 


首先 ， 我 们 定义 一 个 存储 路 径 ， 这 里 就 用 当前 路 径 下 的 ckpt_dir 目 
录 ， 人 代码 如 下 : 





ckpt_dir = "./ckpt_dir" 
if not os.path.exists(ckpt_dir): 
os.makedirs(ckpt_dir) 


定义 一 个 计数 器 ， 为 训练 轮 数 计数 ， 代 码 如 下 : 





# 计数 器 变量 ， 设 置 它 的 trainable=False， 不 需要 被 训练 
global step = tf.Variable(0, name-'global step', trainable-False) 




















当 定 义 完 所 有 变量 后 ， 调 用 tftrain.Saver0 来 保存 和 提取 变量 ， 其 后 
面 定义 的 变量 将 不 会 被 存储 ， 代 码 如 下 : 














# 在 声明 完 所 有 变量 后 ， 调 用 tf.train.Saver 
saver = tf.train.Saver() 

# 位 于 tf.train.Saver 之 后 的 变量 将 不 会 被 存储 
non_storable variable = tf.Variable(777) 




















训练 模型 并 存储 ， 如 下 : 





with tf.Session() as sess: 
tf.initialize all variables().run() 





start = global step.eval() # 得 到 global_step 的 初始 值 
print("Start from:", start) 





for i in range(start, 100): 


# 以 128 作 为 batch_size 


for start, end in zip(range(0, len(trX), 128), range(128, len(trX)«1, 
128)): 


sess.run(train op, feed dict-(X: trX[start:end], Y: trY[start:end], 
p keep input: 0.8, p keep hidden: @.5}) 








global step.assign(i).eval() # 更 新 计数 器 
saver.save(sess, ckpt dir + "/model.ckpt", global step-global step) tt 
存储 模型 








于 是 ， 在 训练 的 过 程 中 ，ckpt_dir 下 会 出 现 16 个 文件 ， 其 中 有 5 个 
model.ckpt-{n}.data- 00000-of-00001 文 件 ， 是 训练 过 程 中 保存 的 模型 ，5 
个 model.ckpt-{n}.meta 文 件 ， 是 训练 过 程 中 保存 的 元 数据 CTensorFlow 
默认 只 保存 最 近 5 个 模型 和 元 数据 ， 删 除 前 面 没 用 的 模型 和 元 数据 ) ，5 
个 model.ckpt-{tnj.index 文 件 ，{pn} 代 表 迭 代 次 数 ， 以 及 1 个 检查 点 文本 文 
件 ， 里 面 保存 着 当前 模型 和 最 近 的 5 个 模型 ， 内 容 如 下 : 








model checkpoint path: "model.ckpt-60" 

all model checkpoint paths: "model.ckpt-56" 
all model checkpoint paths: "model.ckpt-57" 
all model checkpoint paths: "model.ckpt-58" 
all model checkpoint paths: "model.ckpt-59" 
all model checkpoint paths: "model.ckpt-60" 





， 假 如 在 训练 茶 个 模型 时 突然 因为 茶 种 原因 ， 脚 本 停止 运行 





f, BRUN. EDEMA VN? 我 们 知道 ， 训 练 一 
个 神经 网 络 的 时 间 都 比较 长 ， 少 则 几 个 小 时 ， 多 则 几 天 ， 甚 至 几 周 。 如 
果 能 将 之 前 训练 的 参数 保存 下 来 ， 就 可 以 在 出 现 意 外 状况 时 接 独 上 一 次 
的 地 方 开 始 训 练 。 此 外 ， 每 个 固定 的 轮 数 在 检查 点 保存 一 个 模型 (.ckpt 
文件 ) ， 也 有 利于 随时 将 模型 拿 出 来 进行 预测 ， 用 前 儿 次 的 预测 效果 区 
可 以 估计 出 神经 网 络 完 竟 设计 得 怎么 样 。 


3. 加 载 模型 











如 果 有 已 经 训练 好 的 模型 变量 文件 ， 可 以 用 saver.restore 来 进行 模型 
加 载 : 


with tf.Session() as sess: 
tf.initialize all variables().run() 


ckpt = tf.train.get checkpoint state(ckpt dir) 
if ckpt and ckpt.model checkpoint path: 
print(ckpt.model checkpoint path) 
saver.restore(sess, ckpt.model checkpoint path) # 加 载 所 有 的 参数 




















# 从 这 里 开始 就 可 以 直接 使 用 模型 进行 预测 ， 或 者 接着 继续 训练 了 

















48.2 图 的 存储 与 加 载 
当 仅 保存 图 模型 时 ， 才 将 图 写 入 二 进 制 协议 文件 中 ， 例 如 ; 








v = tf.Variable(0, name-'my variable') 
sess - tf.Session() 
tf.train.write graph(sess.graph def, '/tmp/tfmodel', 'train.pbtxt') 


当 读 取 时 ， 又 从 协议 文件 中 读 取 出 来 : 


with tf.Session() as _sess: 
with gfile.FastGFile("/tmp/tfmodel/train.pbtxt",'rb') as f: 
graph_def = tf.GraphDef() 
graph def.ParseFromString(f.read()) 
_sess.graph.as_ default() 
tf.import graph def(graph def, name-'tfgraph') 





49 队列 和 线程 


和 TensorFlow 中 的 其 他 组 件 一 样 ， 队 列 Cqueue) 本 身 也 是 图 中 的 
一 个 节点 ， 是 一 种 有 状态 的 节点 ， 其 他 市 点 ， 如 入 队 节 点 Cenqueue ) 
和 出 队 节 点 (dequeue〉， 可 以 修改 它 的 内 容 。 例 如 ， 入 队 布 点 可 以 把 
新 元 素 插 到 队列 末尾 ， 出 队 节 点 可 以 把 队列 前 面 的 元 素 删 除 。 本 节 主 要 
介绍 队列 、 队 列 管理 器 、 线 程 和 协调 器 的 有 关 知 识 。 





4.9.1 队列 


TensorFlow 中 主要 有 两 种 队列 ， 即 FIFOQueue 和 
RandomShuffleQueue， 它 们 的 源 代码 实现 在 tensorflow- 
1.1.0/tensorflow/python/ops/data_flow_ops.py 中 。 


1. FIFOQueue 


FIFOQueue 创 建 一 个 先入 先 出 队列 。 例 如 ， 我 们 在 训练 一 些 语音 、 
文字 样本 时 ， 使 用 循环 神经 网 络 的 网 络 结构 ， 和 希望 读 入 的 训练 样本 是 有 
序 的 ， 就 要 用 FIFOQueue。 关 于 循环 神经 网 络 的 讲解 参见 9.5 节 。 


我 们 先 创建 一 个 含有 队列 的 图 : 





import tensorflow as tf 








# 创建 一 个 先入 先 出 队列 ,初始 化 队列 插入 6.1、8.2、6.3 三 个 数字 
q = tf.FIFOQueue(3, "float") 

init = q.enqueue many(([0.1, 0.2, 0.3],)) 

# 定义 出 队 、+1、 入 队 操 作 

X = q.dequeue() 

y=x+1 

q_inc = q.enqueue([y]) 








然后 开局 一 个 会 话 ， 执 行 2 次 q_inc 操 作 ， 随 后 查看 队列 的 内 容 : 


with tf.Session() as sess: 
sess.run(init) 
quelen = sess.run(q.size()) 
for i in range(2): 


sess.run(q inc) # 执行 2 次 操作 ， 队 列 中 的 值 变 为 6.3,1.1,1.2 














quelen = sess.run(q.size()) 
for i in range(quelen): 


print (sess.run(q.dequeue())) st 输出 队列 的 值 


最 终 





结果 如 下 : 


bP © 
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2. RandomShuffleQueue 


RandomShuffleQueue 创 建 一 个 随机 队列 ， 在 出 队列 时 ， 是 以 随机 的 


顺序 产生 元 素 的 。 人 例如， 我们 在 训练 一 些 图 像样 本 时 ， 使 用 CNN 的 网 络 
结构 ， 和 希望 可 以 无 序 地 读 入 训练 样本 ， 就 要 用 RandomShuffleQueue， 
次 随机 产生 一 个 训练 样本 。 关 于 CNN 的 实战 讲解 参见 第 10 章 。 


RandomShuffleQueue 在 TensorFlow 使 用 异步 计算 时 非常 重要 。 因 为 
TensorFlow 的 会 话 是 文 持 多 线程 的 ， 我 们 可 以 在 主线 程 里 执行 训练 操 
作 ， 使 用 RandomShuffleQueue 作 为 训练 输入 ， 开 多 个 线程 来 准备 训练 样 
本 ， 将 样本 压 入 队列 后 ， 主 线程 会 从 队列 中 每 次 取出 mini-batch 的 样本 
进行 训练 。 详 细 的 例子 将 在 4.10 节 中 详细 讲解 。 


下 面 我 们 创建 一 个 随机 队列 ， 队 列 最 大 长 度 为 10， 出 队 后 最 小 长 度 
732: 


q = tf.RandomShuffleQueue(capacity-10, min after dequeue-2, dtypes-"float") 





然后 开启 一 个 会 话 ， 执 行 10 次 入 队 操作 ，8 次 出 队 操作 : 





sess = tf.Session() 
for i in range(0, 10): #107 AB 
sess.run(q.enqueue(i)) 





for i in range(0, 8): # 8 次 出 队 
print(sess.run(q.dequeue( ))) 


发 现 结果 确实 是 乱 序 的 : 
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5 
0 
6 
9 
2. 
3 
1 
4 





我 们 尝试 修改 入 队 次 数 为 12 次 ， 再 运行 ， 发 现 程 序 阻 断 不 动 ， 或 者 
我 们 尝试 修改 出 队 此 时 为 10 次 ， 即 不 保留 队列 最 小 长 度 ， 友 现 队 列 输出 
8 次 结果 后 ， 在 终端 仍然 阻 断 了 。 现 象 如 图 4-10 所 示 ， 在 箭头 处 卡 在 不 
动 。 这 种 情况 称 为 阻 断 。 


test git:( ) X python queue. py 

W tensorflow/core/platform/cpu feature guard.cc:95] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CP 
U computations. 

W tensorflow/core/platform/cpu. feature guard.cc:95] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up CPU c 
omputations. 

W tensorflow/core/platform/cpu feature guard.cc:95] The TensorFlow library wasn't compiled to use AVX2 instructions, but these are available on your machine and could speed up CPU 
computations, 

W tensorflow/core/platform/cpu feature guard.cc:95] The TensorFlow library wasn't compiled to use FMA instructions, but these are available on your machine and could speed up CPU c 
omputations. 





图 4-10 


阻 断 一 般 发 生 在 : 


© 队列 长 度 等 于 最 小 值 ， 执 行 出 队 操作 ; 
© 队列 长 度 等 于 最 大 值 ， 执 行 入 队 操 作 。 
只 有 队列 满足 要 求 后 ， 才 能 继续 执行 。 可 以 通过 设置 绘 国 在 运行 时 
的 等 待 时 间 来 解除 阻 断 : 


run options = tf.RunOptions(timeout in ms = 10000) 
try: 

sess.run(q.dequeue(), options-run options) 
except tf.errors.DeadlineExceededError: 

print('out of range") 








上 面 的 例子 都 是 在 会 话 的 主线 程 中 进行 入 队 操 作 。 当 数据 量 很 大 
时 ， 入 队 操 作 从 硬盘 中 读 取 数据 ， 放 入 内 存 中 ， 主 线程 需要 等 竺 入 队 操 
作 完 成 ， 才 能 进行 训练 操作 。 会 话 中 可 以 运行 多 个 线程 ， 我 们 使 用 线程 
管理 器 QueueRunner 创 建 一 系列 的 新 线程 进行 入 队 操作 ， 让 主线 程 继 续 
使 用 数据 ， 即 训练 网 络 和 读 取 数据 是 异步 的 ， 主 线程 在 训练 网 络 ， 男 一 
个 线程 在 将 数据 从 硬盘 读 入 内 存 。 


49.2 ”队列 管理 器 
我 们 创建 一 个 含有 队列 的 图 : 





q = tf.FIFOQueue(1000, "float") 

counter = tf.Variable(0.0) # 计数 器 

increment op = tf.assign add(counter, tf.constant(1.0)) # 操作 : 给 计数 器 
加 1 

enqueue op = q.enqueue(counter) # 操作 : 计数 器 值 加 入 队列 
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素 。 目 前 我 们 只 使 用 一 个 线程 : 


qr = tf.train.QueueRunner(q, enqueue ops-[increment op, enqueue op] * 1) 





局 动 一 个 会 话 ， 从 队列 管理 器 qr 中 创建 线程 : 


# 主 线程 
with tf.Session() as sess: 
sess.run(tf.global variables initializer()) 
enqueue threads = qr.create threads(sess, start=True) 启动 入 队 线 程 
# 主 线程 
for i in range(10): 
print (sess.run(q.dequeue())) 

















输出 结果 如 下 : 


4.0 
9.0 
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不 是 我 们 期 待 的 自然 数列 ， 并 且 线 程 被 阻 断 。 这 是 因为 加 1 操作 和 
入 队 操作 不 同步 ， 可 能 加 1 操作 执行 了 很 多 次 之 后 ， 才 会 进行 一 次 入 队 
操作 。 另 外 ， 因 为 主线 程 的 训练 〈 出 队 操 作 ) 和 读 取 数 据 的 线程 的 训练 
(入 队 操 作 〉 是 异步 的 ， 主 线程 会 一 直 等 竺 数据 送 入 。 


QueueRunner £j —^r pH] iE: 入 队 线 程 自 顾 目地 执行 ， 在 需要 的 
出 队 操 作 完 成 之 后 ， 程 序 没 法 结束 。 这 样 束 要 使 用 tf.train.Coordinator 来 
实现 线程 间 的 同步 ， 终 止 其 他 线程 。 


4.9.3 ”线程 和 协调 器 
使 用 协调 器 (coordinator) 来 管理 线程 : 








# 主线 程 
sess = tf.Session() 
sess.run(tf.global variables initializer()) 











# Coordinator: 协调 器 ， 协 调 线程 间 的 关系 可 以 视 为 一 种 信号 量 ， 用 来 做 同步 


coord = tf.train.Coordinator() 














# 局 动 入 队 线 程 ， 协 调 器 是 线程 的 参数 


enqueue threads = qr.create threads(sess, coord = coord,start=True) 











# 主线 程 
for i in range(0, 10): 
print(sess.run(q.dequeue( ))) 








coord.request_stop()# 通知 其 他 线程 关闭 




















coord.join(enqueue threads) # join 操作 等 待 其 他 线程 结束 ， 其 他 所 有 线程 关闭 之 后 ， 
这 一 函数 才能 返回 


























发 现 上 述 代码 能 正常 运行 ， 返 回 结 果 ， 并 结束 。 但 我 们 发 现 ， 在 关 
闭 队列 线程 后 ， 再 执行 出 队 操 作 ， 束 会 殷 出 tf.errors.OutOfRange 错 误 。 
把 coord.request_stop0 和 主线 程 的 出 队 操作 q.dequeueO 调 换 位 置 ， 如 下 : 


coord.request stop() 
# 主线 程 
for i in range(0, 10): 


print(sess.run(q.dequeue( ))) 


coord.join(enqueue threads) 
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coord.request stop() 


# 主线 程 
for i in range(0, 10): 


try: 
print(sess.run(q.dequeue() ) ) 
except tf.errors.OutOfRangeError: 
break 


coord.join(enqueue threads) 





所 有 队列 管理 器 被 默认 加 在 图 的 tf.GraphKeys.QUEUE_RUNNERS 


4.10 加载 数据 


TensorFlow 作 为 符号 编程 框架 ， 需 要 先 构建 数据 流 图 ， 再 读 取 数 
据 ， 随 后 进行 模型 训练 。TensorFlow 官 方 网 站 给 出 了 以 下 读 取 数据 3 种 
Jk, 











。 预 加 载 数 据 (preloaded data) : 在 TensorFlow 图 中 定义 常量 或 变量 
来 保存 所 有 数据 。 

。 填充 数据 (feeding) : Python 产生 数据 ， 再 把 数据 填充 后 端 。 

e 从 文件 读 取 数据 (reading from file) : 从 文件 中 直接 读 取 ， 让 队列 
管理 器 从 文件 中 读 取 数据 。 


4.10.1 ” 预 加 载 数 据 
预 加 载 数 据 的 示例 如 下 : 





x1 = tf.constant([2, 3, 4]) 
x2 = tf.constant([4, 0, 1]) 
y = tf.add(x1, x2) 





MTT IRE, RAGA RAREST, SVR B ER 
大 时 ， 很 消耗 内 存 。 


4.10.2 ”填充 数据 


使 用 sess.run0) 中 的 feed_dict 参 数 ， 将 Python 产生 的 数据 填充 给 后 


import tensorflow as tf 

# 设计 

al = tf.placeholder(tf.int16) 

a2 = tf.placeholder(tf.int16) 

b = tf.add(x1, x2) 

# 用 Python 产生 数据 

lil = [2, 3, 4] 

li2 = [4, 6, 1] 

# 打开 一 个 会 话 ， 将 数据 填充 给 后 端 

with tf.Session() as sess: 
print sess.run(b, feed dict-(a1: lil, a2: 112}) 











填充 的 方式 也 有 数据 量 大 、 消 耗 内 存 等 缺点 ， 并 且 数 据 类 型 转换 等 
中 间 环 节 增 加 了 不 小 开销 。 这 时 最 好 用 第 三 种 方法 ， 在 图 中 定义 好 文件 
读 取 的 方法 ， 让 TensorFlow 目 己 从 文件 中 读 取 数据 ， 并 解码 成 可 使 用 的 
样本 集 。 
4.10.3 ”从 文件 读 取 数 据 


从 文件 读 取 数据 分 为 如 下 两 个 步 又 : 





(1) 把 样本 数据 写 入 TFRecords 二 进 制 文件 ; 
(2) 再 从 队列 中 读 取 。 


我 们 以 MNIST 数 据 集 为 例 来 说 明 ， 如 何 把 MNIST 的 数据 转换 成 


TFRecords X: f . 


TFRecords 是 一 种 二 进 制 文件 ， 能 更 好 地 利用 内 存 ， 更 方便 地 复制 
和 移动 ， 并 且 不 需要 单独 的 标记 文件 。 接 下 来 我 们 就 看 一 下 如 何 转换 ， 
具体 代码 参见 tensorflow-1.1.0/tensorflow/examples/ 


how. tos/reading data/convert to records.py. 
1. 生成 TFRecords 文 件 


我 们 定义 主 函数 ， 给 训练 、 验 证 、 测 试 数据 集 做 转换 : 


def main(unused_argv): 
# 获取 数据 
data_sets = mnist.read_data_sets(FLAGS.directory, 
dtype-tf.uint8, # 注意 ， 这 里 的 编码 是 uint8 
reshape=False, 
validation_size=FLAGS.validation_size) 
































# 将 数据 转换 为 tf.train.Example 类 型 ， 并 写 入 TFRecords 文 件 
convert to(data sets.train, 'train') 


convert to(data sets.validation, 'validation') 
convert to(data sets.test, 'test') 





转换 函数 convert to 的 主要 功能 是 ， 将 数据 填 入 到 tttrain.Example 的 
协议 缓冲 区 (protocol buffer) 中 ， 将 协议 绥 冲 区 序列 化 为 一 个 字符 
串 ， 通 过 tf.python_io.TFRecordWriter 写 入 TFRecords 文 件 。 





def convert to(data set, name): 
images = data set.images 
labels = data_set.labels 
num examples = data set.num examples # 55666 个 训练 数据 ，568686 个 验证 数据 ，16 








666 个 测试 数据 


if images.shape[6] != num_examples: 
raise ValueError('Images size %d does not match label size %d.' % 
(images.shape[@], num examples)) 
rows = images.shape[1] # 28 
cols = images.shape[2] # 28 
depth = images.shape[3] # 1， 是 黑白 图 像 ， 所 以 是 单 通 道 



































filename = os.path.join(FLAGS.directory, name + '.tfrecords') 
print('Writing', filename) 
writer = tf.python_io.TFRecordwWriter (filename) 


for index in range(num_examples): 
image_raw = images[index].tostring() 


# 写 入 协议 缓冲 区 中 ，height、width、depth、label 编 码 成 jnt64 类 型 ，image_raw 
码 成 二 进 制 
example = tf.train.Example(features=tf.train.Features(feature={ 
'height':  int64 feature(rows), 
'width':  int64 feature(cols), 
'depth':  int64 feature(depth), 
'label': int64 feature(int(labels[index])) 



































St 


"image raw': _bytes_feature(image_ raw) })) 


writer.write(example.SerializeToString()) # 序列 化 为 字符 串 
writer.close() 





编码 函数 如 下 : 





def _int64_feature(value): 
return tf.train.Feature(int64 list-tf.train.Int64List(value-[value])) 


def bytes feature(value): 
return tf.train.Feature(bytes list-tf.train.BytesList(value-[value])) 





运行 结束 后 ， 在 /tmp/data 下 生成 3 个 文件 ， 即 train.tfrecords、 


validation.tfrecords 和 test.tfrecords 。 


2. 从 队列 中 读 取 


一 旦 生成 了 TFRecords 文 件 ， 接 下 来 就 可 以 使 用 队列 读 取 数据 了 。 
主要 分 为 3 步 : 


QD 创建 张 量 ， 从 二 进 制 文件 读 取 一 个 样本 ; 
(2) 创建 张 量 ， 从 二 进 制 文件 随机 读 取 一 个 mini-batch; 
(3) 把 每 一 批 张 量 传 入 网 络 作 为 输入 节点 。 


代码 参见 tensorflow- 


1.1.0/tensorflow/examples/how_tos/reading_data/fully_connected_reader.py. 


首先 我 们 定义 从 文件 中 读 取 并 解析 一 个 样本 : 





def read_and_decode(filename queue): # 输入 文件 名 队列 
reader = tf.TFRecordReader() 
_, serialized_example = reader.read(filename_queue) 
features = tf.parse single example( # 解析 example 
serialized_example, 











# 必须 写 明 features 里 面 的 Key 的 名 称 
features={ 
‘image raw': tf.FixedLenFeature([], tf.string), # 图 片 是 string 类 型 
'label': tf.FixedLenFeature([], tf.int64), # 标记 是 int64 类 型 
}) 
# 对 于 BytesList， 要 重新 进行 解码 ， 把 string 类 型 的 6 维 Tensor 变 成 uint8 类 型 的 一 维 T 
ensor 
image = tf.decode raw(features['image raw'], tf.uint8) 





















































image.set shape([mnist.IMAGE PIXELS]) 
# Tensor("input/DecodeRaw:0", shape=(784,), dtype-uint8) 


# image 张 量 的 形状 为 : Tensor("input/sub:0", shape=(784,), dtype=float32) 
image = tf.cast(image, tf.float32) * (1. / 255) - 0.5 


# 把 标记 从 uint8 类 型 转换 为 int32 类 型 
# 1abel1 张 量 的 形状 为 Tensor("input/Cast_1:6"，shape=()，dtype=int32) 
label = tf.cast(features['label'], tf.int32) 





return image, label 





接 下 来 使 用 tf.train.shuffle_batch 将 前 面 生 成 的 样本 随机 化 ， 获 得 一 
个 最 小 批 次 的 张 量 : 





def inputs(train, batch size, num epochs): 


# 输入 参数 : 
# train: 选择 输入 训练 数据 /验证 数据 
# batch_size: 训练 的 每 一 批 有 多 少 个 样本 
# num epochs: 过 几 遍 数据 ， 设 置 为 8/None 表 示 永 远 训练 下 去 
返回 结果 : A tuple (images, labels) 
* images: 类 型 float， 形 状 [batch_size，mnist.IMAGE_PIXELS]， 范 围 [-6.5，6 
BT. 
* labels: 类 型 int32， 形 状 [batch_size]， 范 围 [@, mnist.NUM CLASSES] 
注意 tf.train.QueueRunner 必须 用 tf.train.start_queue_runners() 来 启动 线程 
























































if not num_epochs: num_epochs = None 
# 获取 文件 路 径 ， 即 /tmp/data/train.tfrecords, /tmp/data/validation.records 
filename = os.path.join(FLAGS.train_dir, 

TRAIN FILE if train else VALIDATION FILE) 


with tf.name scope('input'): 
# tf.train.string_input_producer 返 回 一 个 QueueRunner， 里 面 有 一 个 FIFOQueue 
filename queue = tf.train.string input producer( 
[filename], num epochssnum epochs) # 如 果 样 本 量 很 大 ， 可 以 分 成 若干 文件 
把 文件 名 列表 传 入 
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image, label = read_and_decode(filename_queue) 


# 随机 化 example， 并 把 它们 规整 成 bpatch_size 大 小 
# tf.train.shuffle batch/EJX f RandomShuffleQueue, JfJTJH Vg ZE TE 
images, sparse labels - tf.train.shuffle batch( 
[image, label], batch size-batch size, num threads-2, 
capacity-1000 + 3 * batch size, 
min after dequeue-1000) # 留 下 一 部 分 队列 ， 来 保证 每 次 有 足够 的 数据 做 随机 














tT AL 


return images, sparse_labels 





最 后 ， 我 们 把 生成 的 batch 张 量 作为 网 络 的 输入 ， 进 行 训练 : 





def run training(): 
with tf.Graph().as default(): 
# 输入 images 和 1abels 
images, labels = inputs(train=True, batch_size=FLAGS.batch_size, 


num epochs-FLAGS.num epochs) 




















# 构建 一 个 从 推理 模型 来 预测 数据 的 图 

logits = mnist.inference(images, 
FLAGS. hidden1, 
FLAGS. hidden2) 

















loss = mnist.loss(logits, labels) # 定义 损失 函数 


# Add to the Graph operations that train the model. 
train_op = mnist.training(loss, FLAGS.learning rate) 








# 初始 化 参数 ， 特 别 注意 : string_input_producer 内 部 创建 了 一 个 epoch 计 数 变 量 ， 
# 归 入 tf.GraphKeys.LOCAL_ VARIABLES 集 合 中 ， 必 须 单 独 用 initialize local var 
iables() 初 始 化 
init op = tf.group(tf.global variables initializer(), 
tf.local variables initializer()) 




















sess - tf.Session() 


sess.run(init_op) 


# Start input enqueue threads. 
coord = tf.train.Coordinator() 
threads = tf.train.start_queue_runners(sess=sess, coord=coord) 


try: 
step = 0 
while not coord.should stop(): # 进入 永久 循环 
start_time = time.time() 
_, loss_value = sess.run([train_op, loss]) 
duration = time.time() - start_time 

















# 每 168 次 训练 输出 一 次 结果 
if step % 100 == 
print('Step Xd: loss = %.2f (%.3f sec)' % (step, loss value, durat 
ion)) 
step += 1 
except tf.errors.OutOfRangeError: 
print('Done training for %d epochs, %d steps.' % (FLAGS.num_epochs, 
step) ) 
finally: 
coord.request stop() # 通知 其 他 线程 关闭 




















coord. join(threads) 
sess.close() 





输出 结果 如 下 : 





Step @: loss = 2.29 (@.193 sec) 


Step 100: loss = 
Step 200: loss = 
Step 300: loss = 
Step 400: loss = 
Step 500: loss = 
Step 600: loss = 
Step 700: loss = 
Step 800: loss = 
Step 900: loss = 


.05 (0.030 sec) 
.63 (0.022 sec) 
.38 (0.025 sec) 
.94 (0.027 sec) 
.86 (0.027 sec) 
.68 (0.024 sec) 
.67 (0.028 sec) 
.62 (0.026 sec) 
.56 (0.028 sec) 


OOo coocomPnari!xm 


Step 1000: loss = 0.49 (0.018 sec) 
Done training for 2 epochs, 1100 steps. 





数据 集 大 小 为 5 5000，2 轮 训练 ， 共 110 0007 Z& 35, batch size K/h 
为 100， 故 训练 次 数 为 1 100 次 ， 每 100 次 训练 输出 一 次 结果 ， 共 输出 11 
次 结果 。 


如 上 所 述 ， 我 们 总 结 出 TensorFlow 使 用 TFRecords 文 件 训 练 样 本 的 


E: 
C1) 在 生成 文件 名 队列 中 ， 设 定 epoch 数 量 ; 
(2) 训练 时 ， 设 定 为 无 穷 循环 ; 


(3) 在 读 取 数据 时 ， 如 果 捕 捉 到 错误 ， 终 止 。 


441. SE Ia MERE 





尽管 TensorFlow 上 自己 提供 了 足够 多 的 操作 ， 初 学 者 甚至 中 高 级 的 读 
者 都 可 以 直接 用 手册 中 的 API 来 实现 自己 的 业务 需求 。 想 创建 一 个 不 包 
侣 在 现 有 TensorFlow 库 中 的 操作 ， 可 以 先 试 试用 现 有 的 Python 操作 的 组 
合 能 不 能 实现 ， 如 有 果 现 有 操作 的 组 合 不 能 实现 ， 或 者 能 够 实现 但 是 效率 
不 高 ， 再 或 者 因为 发 现在 XLA 框 架 中 难以 自己 融合 〈 对 XLA 的 讲解 参见 
第 16 章 ) ， 想 手工 融合 几 个 操作 ， 如 何 实现 呢 ? 





本 节 内 容 较 难 ， 需 要 熟练 掌握 C++ 语言 ， 并 且 对 张 量 的 流动 和 前 向 
传播 和 反 回 传播 有 很 深 的 理解 。 建 议 初 学 者 跳 过 这 部 分 内 容 ， 看 完全 书 
Ja BUR ART. 





411.31 步 又 
要 目 定 义 一 个 操作 ， 最 简单 的 是 需要 以 下 3 步 。 


(1) 在 C++ 文件 〈*_ops.cc 文 件 ) 中 注册 新 的 操作 。 这 里 定义 了 操 
作 功 能 的 接口 规范 ， 如 操作 的 名 称 、 输 入 和 输出 以 及 属性 等 。 


(2) 在 C++ 文件 C* kernels.cc 文 件 ) 中 实现 这 个 操作 。 也 就 是 ， 
对 上 一 步 中 操作 注册 规范 的 具体 实现 ， 可 以 实现 在 如 CPU、GPU 等 多 个 
内 核 上 。 


(3) 测试 操作 。 编 译 出 该 操作 的 库 文 件 (*_ops.so 文 件 ) ， 然 后 在 
Python 中 使 用 这 个 操作 。 


因此 ， 要 创建 一 个 新 的 操作 ， 需 要 掌握 一 些 C++ 语 言 的 知识 。 
4.11.2 ”最 佳 实践 


下 面 以 词 嵌 入 的 例子 来 说 明 ， 源 代码 参见 
https://github.com/tensorflow/models/blob/master/ 
tutorials/embedding/word2vec_optimized.py . 1E3.3.2 3] HH, RRITURA 
投影 仪 的 可 视 化 讲 过 这 个 Word2vec 的 可 视 化 例子 。 


第 一 步 ， 我 们 创建 Word2vec_ops.cc 来 注册 两 个 操作 ， 即 
SkipgramWord2vec 和 NegTrainWord2vec， 代 码 如 下 : 





#include "tensorflow/core/framework/op.h" 


namespace tensorflow { 


REGISTER OP("SkipgramWord2vec") 
.Output("vocab word: string") 
.Output("vocab freq: int32") 
.Output("words per epoch: int64") 
.Output("current epoch: int32") 
.Output("total words processed: int64") 
.Output("examples: int32") 
.Output("labels: int32") 
.SetIsStateful() 
.Attr("filename: string") 
.Attr("batch size: int") 
.Attr("window size: int - 
.Attr("min count: int = 5 
.Attr("subsample: float - 
.Doc(R"doc( 

Parses a text file and creates a batch of examples. 


"d 


5 
") 
1e-3") 


vocab word: A vector of words in the corpus. 

vocab freq: Frequencies of words. Sorted in the non-ascending order. 
words per epoch: Number of words per epoch in the data file. 

current epoch: The current epoch number. 

total words processed: The total number of words processed so far. 
examples: A vector of word ids. 

labels: A vector of word ids. 


filename: The corpus's text file name. 
batch_size: The size of produced batch. 
window_size: The number of words to predict to the left and right of the t 
arget. 
min_count: The minimum number of word occurrences for it to be included in 
the 
vocabulary. 
subsample: Threshold for word occurrence. Words that appear with higher 
frequency will be randomly down-sampled. Set to @ to disable. 
)doc") ; 


REGISTER OP("NegTrainWord2vec") 
.Input("w in: Ref(float)") 
.Input("w out: Ref(float)") 
.Input("examples: int32") 
.Input("labels: int32") 
.Input("lr: float") 
.SetIsStateful() 

.Attr("vocab count: list(int)") 
.Attr("num negative samples: int") 
.Doc(R"doc( 

Training via negative sampling. 


w in: input word embedding. 

w out: output word embedding. 

examples: A vector of word ids. 

labels: A vector of word ids. 

vocab count: Count of words in the vocabulary. 

num negative samples: Number of negative samples per example. 
)doc"); 





第 二 步 ， 我 们 将 这 两 个 操作 在 CPU 设备 上 进行 实现 ， 生 成 
word2vec_kernels.cc 文 件 ， 代 码 如 下 : 





#include "tensorflow/core/framework/op.h" 
#include "tensorflow/core/framework/op kernel.h" 


#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 


"tensorflow/core/lib/core/stringpiece.h" 
"tensorflow/core/lib/gtl/map util.h" 
"tensorflow/core/lib/random/distribution sampler.h" 
"tensorflow/core/lib/random/philox random.h" 
"tensorflow/core/lib/random/simple philox.h" 
"tensorflow/core/lib/strings/str util.h" 
"tensorflow/core/platform/thread annotations.h" 
"tensorflow/core/util/guarded philox random.h" 


namespace tensorflow { 





// 预先 计算 的 示例 数 
const int kPrecalc = 3000; 
// 处 理 前 读 入 句子 的 字数 


const int kSentenceSize = 1000; 





namespace { 


bool ScanWord(StringPiece* input, string* word) { 
str util::RemoveLeadingWhitespace(input); 
StringPiece tmp; 
if (str util::ConsumeNonWhitespace(input, &tmp)) ( 
word-»assign(tmp.data(), tmp.size()); 
return true; 
) else { 
return false; 
j 
} 


} 


class SkipgramWord2vecOp : 
public: 
explicit SkipgramWord2vecOp(OpKernelConstruction* ctx) 
: OpKernel(ctx), rng_(&philox_) { 
string filename; 


public OpKernel { 


OP_REQUIRES_OK(ctx, 
OP REQUIRES OK(ctx, 
OP REQUIRES OK(ctx, 
OP REQUIRES OK(ctx, 
OP REQUIRES OK(ctx, 
OP REQUIRES OK(ctx, 


mutex lock l(mu ); 
example pos = 
label pos = 
label limit = 
sentence index = 


ctx-»GetAttr("filename", &filename)); 
ctx-»GetAttr("batch size", &batch size )); 
ctx-»GetAttr("window size", &window size )); 
ctx-»GetAttr("min count", &min count )); 
ctx-»GetAttr("subsample", &subsample )); 
Init(ctx-»env(), filename)); 


corpus size ; 
corpus 
corpus size ; 

kSentenceSize; 


size ; 


for (int i = 0; i « kPrecalc; ++i) { 
NextExample(&precalc examples [i].input, &precalc examples [i].la 
bel); 


} 


void Compute(OpKernelContext* ctx) override ( 
Tensor words per epoch(DT INT64, TensorShape({})); 
Tensor current epoch(DT INT32, TensorShape({})); 
Tensor total words processed(DT INT64, TensorShape({})); 
Tensor examples(DT INT32, TensorShape((batch size ))); 
auto Texamples = examples.flat«int32»(); 
Tensor labels(DT INT32, TensorShape((batch size ))); 
auto Tlabels = labels.flat<int32>(); 
T 
mutex lock l(mu ); 
for (int i = 0; i « batch size ; ++i) ( 
Texamples(i) = precalc examples [precalc index ].input; 
Tlabels(i) = precalc examples [precalc index ].label; 
precalc index ++; 
if (precalc index >= kPrecalc) ( 
precalc index = 6; 
for (int j = 0; j « kPrecalc; ++j) { 
NextExample(&precalc examples [j].input, 
&precalc examples [j].1label); 
} 
} 
} 


words_per_epoch.scalar<int64>()() = corpus_size_; 
current_epoch.scalar<int32>()() = current epoch ; 
total words processed.scalar«int64»()() = total words processed ; 

} 

ctx-»set output(0, word ); 

ctx-»set output(1, freq ); 

ctx-»set output(2, words per epoch); 

ctx-»set output(3, current epoch); 

ctx-»set output(4, total words processed); 

ctx-»set output(5, examples); 

ctx-»set output(6, labels); 

} 


private: 

struct Example { 
int32 input; 
int32 label; 

}; 


int32 batch size = 6; 


int32 window size = 5; 
float subsample = 
int min count = 5; 
int32 vocab size = 
Tensor word ; 
Tensor freq ; 

int64 corpus size = 6; 
std::vector«int32» corpus ; 
std::vector«Example» precalc examples ; 


int precalc index = 6; 
std::vector«int32» sentence ; 
int sentence index = 60; 


mutex mu ; 

random::PhiloxRandom philox  GUARDED BY(mu ); 
random::SimplePhilox rng  GUARDED BY(mu ); 

int32 current epoch GUARDED BY(mu ) = -1; 

int64 total words processed  GUARDED BY(mu ) = 0; 
int32 example pos  GUARDED BY(mu ); 

int32 label pos GUARDED BY(mu ); 

int32 label limit  GUARDED BY(mu ); 





//(example pos , label pos _} 是 下 一 个 示例 的 光标 。example pos 在 corpus 结尾 处 
换行 
// 对 每 个 例子 ， 我 们 为 标记 随机 生成 [label_pos_,， label_limit] 
void NextExample(int32* example, int32* label) EXCLUSIVE LOCKS REQUIRED( 
mu_) { 
while (true) { 
if (label pos >= label limit ) ( 
++total words processed ; 
--sentence index ; 
if (sentence index >= kSentenceSize) { 
sentence index = 0; 
for (int i = 0; i < kSentenceSize; ++i, ++example pos ) ( 
if (example pos >= corpus size ) ( 
++current_epoch_; 
example pos = 0; 
} 
if (subsample > 0) { 
int32 word freq = freq .flat«int32»()(corpus [example pos ]) 


// See Eq. 5 in http://arxiv.org/abs/1310.4546 
float keep prob - 
(std::sqrt(word freq / (subsample * corpus size )) + 1) 


(subsample * corpus size ) / word freq; 
if (rng .RandFloat() » keep prob) ( 
i--; 


continue; 


} 
} 
sentence [i] = corpus [example pos ]; 
} 
} 


const int32 skip = 1 + rng_.Uniform(window_size_); 
label_pos_ = std::max<int32>(0, sentence_index_ - skip); 


label_limit_ = 


std: :min<int32>(kSentenceSize, sentence index + skip + 1); 


} 


if (sentence_index_ != label pos ) ( 
break; 


++label_ pos ; 


} 


*example = sentence_[sentence_index_]; 
*label = sentence [label pos _ ++]; 


} 


Status Init(Env* env, const string& filename) { 
string data; 


TF_RETURN_IF_ERROR(ReadFileToString(env, filename, &data)); 


StringPiece input = data; 
string w; 
corpus size = 6; 
std::unordered map«string, int32» word freq; 
while (ScanWord(&input, &w)) { 
++(word_freg[w]); 
++corpus_ size ; 
} 
if (corpus_size_ < window_size_ * 10) { 
return errors: :InvalidArgument("The text file 


, filename, 
contains too little data: ", 


corpus_size_, " words"); 


} 


typedef std::pair<string, int32> WordFreq; 
std: :vector<WordFreq> ordered; 
for (const auto& p : word freq) ( 
if (p.second >= min count ) ordered.push back(p); 
} 
LOG(INFO) << "Data file: " << filename << " contains 
<< " bytes, " << corpus size << words, 


e() 


<< " unique words, << ordered.size() 
<< unique frequent words."; 
word_freq.clear(); 
std: :sort(ordered.begin(), ordered.end(), 


<< data.size() 
<< word freq.siz 


[](const WordFreq& x, const WordFreq& y) { 
return x.second » y.second; 
5 
vocab size = static cast«int32»(1 + ordered.size()); 
Tensor word(DT STRING, TensorShape((vocab size })); 
Tensor freq(DT INT32, TensorShape((vocab size ))); 
word.flat«string»()(0) = "UNK"; 
static const int32 kUnkId = 60; 
std::unordered map«string, int32» word id; 
int64 total counted = 60; 
for (std::size t i = 0; i « ordered.size(); ++i) { 
const auto& w = ordered[i].first; 
auto id = i + 1; 
word.flat<string>()(id) = w; 
auto word_count = ordered[i].second; 
freq. flat<int32>()(id) = word count; 
total counted += word count; 
word id[w] = id; 


} 
freq.flat<int32>()(kUnkId) = corpus size - total counted; 
word = word; 


freq = freq; 
corpus_.reserve(corpus_size_); 
input = data; 
while (ScanWord(&input, &w)) { 
corpus .push back(gtl::FindWithDefault(word id, w, kUnkId)); 
} 
precalc examples .resize(kPrecalc); 
sentence .resize(kSentenceSize); 
return Status::OK(); 
} 
}; 


REGISTER KERNEL BUILDER(Name("SkipgramWord2vec").Device(DEVICE CPU), 
SkipgramWord2vecOp); 


class NegTrainWord2vecOp : public OpKernel { 
public: 
explicit NegTrainWord2vecOp(OpKernelConstruction* ctx) : OpKernel(ctx) { 
base .Init(0, 0); 


OP REQUIRES OK(ctx, ctx-»GetAttr("num negative samples", &num samples 
)5 


std::vector«int32» vocab count; 
OP REQUIRES OK(ctx, ctx-»GetAttr("vocab count", &vocab count)); 


std::vector«float» vocab weights; 


vocab_weights.reserve(vocab_count.size()); 
for (const auto& f : vocab_count) { 
float r = std::pow(static cast«float»(f), 0.75f); 
vocab weights.push back(r); 
} 
sampler_ = new random: :DistributionSampler(vocab_weights); 


} 


^NegTrainWord2vecOp() { delete sampler_; } 


void Compute(OpKernelContext* ctx) override ( 

Tensor w in = ctx-»mutable input(0, false); 

OP REQUIRES(ctx, TensorShapeUtils::IsMatrix(w in.shape()), 
errors::InvalidArgument("Must be a matrix")); 

Tensor w out = ctx-»mutable input(1, false); 

OP REQUIRES(ctx, w in.shape() == w out.shape(), 
errors::InvalidArgument("w in.shape -- w out.shape")); 

const Tensor& examples - ctx-»input(2); 

OP REQUIRES(ctx, TensorShapeUtils::IsVector(examples.shape()), 
errors::InvalidArgument("Must be a vector")); 

const Tensor& labels = ctx-»input(3); 

OP REQUIRES(ctx, examples.shape() == labels.shape(), 
errors::InvalidArgument("examples.shape -- labels.shape")) 


const Tensor& learning rate - ctx-»input(4); 
OP REQUIRES(ctx, TensorShapeUtils::IsScalar(learning rate.shape()), 
errors::InvalidArgument("Must be a scalar")); 


auto Tw in = w in.matrix«float»(); 

auto Tw out = w out.matrix«float»(); 

auto Texamples = examples.flat«int32»(); 

auto Tlabels = labels.flat<int32>(); 

auto Ir = learning rate.scalar<float>()(); 

const int64 vocab size = w_in.dim_size(@); 

const int64 dims = w_in.dim_size(1); 

const int64 batch size = examples.dim size(9); 

OP REQUIRES(ctx, vocab size -- sampler -»num(), 
errors::InvalidArgument("vocab size mismatches: 


, Vocab s 
ize, 


vs. ", sampler -»num())); 


// v_in 的 梯度 累加 器 
Tensor buf(DT FLOAT, TensorShape({dims})); 
auto Tbuf = buf.flat<float>(); 


Tensor g buf(DT FLOAT, TensorShape(())); 
auto g = g buf.scalar«float»(); 














// 在 下 面 的 循环 中 ， 每 个 负 样本 需要 两 个 随机 32 位 值 
// 我 们 为 每 个 样本 保留 8 个 值 ， 防 止 基础 实现 发 生变 化 

auto rnd = base .ReserveSamples32(batch size * num samples * 8); 
random::SimplePhilox srnd(&rnd); 














for (int64 i = 0; i « batch size; ++i) ( 
const int32 example - Texamples(i); 
DCHECK(@ <= example && example < vocab size) << example; 
const int32 label - Tlabels(i); 
DCHECK(@ <= label && label < vocab size) << label; 
auto v in = Tw in.chip«O»(example); 


// 正 样 本 : 预测 标记 
// ”前 向 传播 : x = v in' * v out 








// 1 = log(sigmoid(x)) 

// 反 向 传播 : dl/dx = g = sigmoid(-x) 
// dl/d(v in) = g * v out' 
// dl/d(v out) = vin' * g 

{ 


auto v out = Tw_out.chip<@>(label); 
auto dot = (v in * v out).sum(); 

g = (dot.exp() + 1.f).inverse(); 
Tbuf 2 v out * (g() * Ir); 

v out += v in * (g() * 1r); 





} 

// 负 样 本 : 

// 前 问 传 播 : x = v in' * v sample 

// l = log(sigmoid(-x)) 

// ” 反 向 传播 : dl/dx = g = -sigmoid(x) 
// dl/d(v in) = g * v out' 
// dl/d(v out) = vin' * g 


for (int j = 0; j < num samples ; ++j) { 
const int sample - sampler -»Sample(&srnd); 
if (sample == label) continue; // Skip. 
auto v sample = Tw out.chip«O»(sample); 
auto dot = (v in * v sample).sum(); 
g = -((-dot).exp() + 1.f).inverse(); 
Tbuf += v sample * (g() * 1r); 
v sample += v in * (g() * 1r); 


} 


v_in += Tbuf; 


private: 

int32 num samples = 6; 
random::DistributionSampler* sampler = nullptr; 
GuardedPhiloxRandom base ; 


}; 


REGISTER KERNEL BUILDER(Name("NegTrainWord2vec").Device(DEVICE CPU), NegTr 
ainWord2vecOp); 


} 


第 三 步 ， 编 译 出 该 操作 的 类 文件 ， 并 做 测试 。 









































我 们 需要 在 特定 的 头 文 件 目录 下 编译 ， 使 用 Python 提供 的 get_include 获 取 头 文件 目录 ， 然 
后 使 用 C++ 编译 器 〈 如 g++) 将 操作 编译 成 动态 库 ， 如 下 : 



























































TF INC-$(python -c ‘import tensorflow as tf; print(tf.sysconfig.get include())') 
g++ -std=c++11 -shared word2vec ops.cc word2vec kernels.cc -o word2vec ops.so -fPIC -I 
$TF INC -02 -D GLIBCXX USE CXX11 ABI-O 














TensorFlowllPython API 提 供 了 tf.1load_op_library 函 数 来 加 载 动态 库 ， 并 向 TensorFlow 框 架 注 册 操 作 。1oa 
d_op_1ibrary 返 回 一 个 包含 操作 和 内 核 的 Python 模块 。 于 是 ， 我 们 测试 如 下 : 








import tensorflow as tf 
word2vec = tf.load op library('word2vec ops.so') 
with tf.Session(''): 
word2vec.skipgram word2vec(filename-'text8', batch size-500, window size-5, 
min count-5, subsample-0.001) 





SkipgramWord2vec(vocab_word=<tf.Tensor 'SkipgramWord2vec:@' shape=<unknown> dtype= 
string», vocab freq-«tf.Tensor 'SkipgramWord2vec:1' shape=<unknown> dtype=int32>, 
words per epoch-«tf.Tensonr 'SkipgramWord2vec:2' shape-«unknown» dtype-int64», current 


epoch-«tf.Tensor 'SkipgramWord2vec:3' shape-«unknown» dtype=int32>, total words 
processed=<tf.Tensor 'SkipgramWord2vec:4' shape-«unknown» dtype=int64>, examples= 
<tf.Tensor 'SkipgramWord2vec:5' shape=<unknown> dtype=int32>, labels=<tf.Tensor 
'SkipgramWord2vec:6' shape=<unknown> dtype=int32>) 








说 明 我 们 注册 的 自 定 义 操 作成 功 了 。 
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本 章 主要 讲解 了 TensorFlow 的 基 




















础 知识 ， 包 括 系统 架构 、 设 计 理 念 
经 网 络 ， 还 介绍 了 存储 与 加 载 模型 的 方 








^ H 





最 后 介绍 了 自 定义 操作 的 方法 。 本 章 是 4 





书 中 最 重要 的 。 




















以 及 线程 和 队列 的 知识 这 些 





内 容 很 
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量化 是 数字 信和 号 处 理 领 域 的 一 个 概念 ， 是 指 将 信号 的 连续 取 值 〈 或 者 大 量 可 能 的 离散 取 值 ) 近似 为 有 限 多 个 〈 
或 较 少 的 ) 离散 值 的 过 程 (参考 百度 百科 “量化 ”)。 
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规范 化 ， 这 里 也 可 以 称 为 标准 化 ， 是 将 数据 按 比 例 缩放 ， 使 之 落 入 一 个 小 的 特定 区 间 。 这 里 是 指 将 数据 减 去 平 
均值 ， 再 除 以 标准 差 。 
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E 穷 大 时 ， 它 的 一 阶 导数 趋 于 6。 便 饱和 是 指 当 |x 











E 指 数 级 








)=8。relu 就 是 一 类 左 侧 硬 饱和 激活 函数 。 
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梯度 消失 是 指 在 更 新 模型 参数 时 采用 链 式 求 导 法 则 反 向 求 导 ， 越 往 前 梯度 越 小 。 最 终 的 结果 是 到 达 一 定 深度 后 
梯度 对 模型 的 更 新 就 没有 任何 贡献 了 。 
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dropout 在 论文 中 最 早 被 提出 时 是 这 么 做 的 : 在 训练 的 时 候 用 概率 P 




















丢弃 ， 然 后 在 预测 的 时 候 ， 所 有 参数 按 比 例 缩小 ， 也 就 是 乘 以 p 















































。 在 各 种 深度 学 习 框 架 CülKeras. TensorFlow) 的 实现 中 ， 都 是 用 反 向 ropout 来 代替 dropout 。 也 就 是 这 里 所 
说 的 ， 在 训练 的 时 候 一 边 dropout， 然 后 再 按 比例 放大 ， 也 就 是 乘 以 1/p 























， 然 后 在 预测 的 时 候 ， 不 做 任务 处 理 。 
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矩 估 计 就 是 利用 样本 矩 来 估计 总 体 中 相应 的 参数 。 如 果 一 个 随机 变量 X 














服从 某 种 分 布 ，X 


的 一 阶 和 矩 是 E 





)， 也 就 是 样本 平均 什 
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的 二 阶 矩 是 E 











2)， 也 就 是 样本 平方 的 平均 值 。 
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这 一 结论 和 图 4-7 至 图 4-9 参 考 http://sebastianruder.com/optimizing-gradient-descent/ 
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。 为 了 讲解 方便 ， 这 里 对 代码 顺序 略微 做 了 调整 。 
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第 5 章 ”TensorFlow 源 代 公 解析 


在 了 解 了 TensorFlow 的 基本 原理 、 编 程 模 型 和 常用 API 后 ， 我 们 一 


起 梳理 一 下 TensorFlow 的 源 代码 ， 以 便 更 深入 地 理解 TensorFlow 的 设 
计 ， 为 今后 学 习 各 种 模型 示例 做 准备 。 


a a 
Bi, MSA RSS ER ET BS 


NE A 





能 够 整体 理解 其 框架 的 重要 
章 。 











5.1 TensorFlowH) H REA 





我 们 仍然 以 TensorFlow 1.1.0 版 本 为 例 ， 看 看 TensorFlow 的 代码 结 
构 。 


进入 tensorflow-1.1.0 目 录 ， 代 码 结构 如 下 : 


| ACKNOWLEDGMENTS # TensorFlow 版 权 声 明 

| 一 ADOPTERS.md # 使 用 TensorFlow 的 人 员 或 组 织 列表 
|— AUTHORS st TensorFlow 作 者 的 官方 列表 

BUILD 

CONTRIBUTING.md # TensorFlow 贡 献 指 导 
ISSUE_TEMPLATE.md # 提 ISSUE 的 模板 

LICENSE # 版 权 许 可 

README .md 

RELEASE.md # 每 次 发 版 的 change log 

WORKSPACE # 配置 移动 端 开发 环境 
bower .BUILD 

configure 

models .BUILD 

[— tensorflow # 主 目录 ， 后 面 分 析 的 重 
— third party # 第 三 方 库 ， 包 括 eigen3 特征 运 算 的 库 ， 包 括 SVD、LU 分 解 等 )、 
s (支持 cuda) . hadoop. jpeg. llvm. py. sycl 

— tools # 构建 cuda 支 持 

— util 











— 
| 一 
— 
| 一 
— 
| 一 
— 
| 一 
— 
— 























其 中 ， 最 重要 的 源 代码 保存 在 tensorflow 目 录 中 。tensorflow 目 录 的 
结构 如 下 : 


I— BUILD 
— . init .py 


C 
cc dt 采用 C++ 进行 训练 的 样 例 
compiler 
contrib # 将 常用 功能 封装 在 一 起 的 高 级 API 
core # C++ 实 现 的 主要 目录 
I— examples # 各 种 示例 ， 本 书后 续 讲 的 例子 主要 就 在 这 个 目录 中 
I— g3doc # 针对 C++、Python 版 本 的 代码 文档 
go 
— java 
opensource_only # 声明 目录 
python # Python 实现 的 主要 目录 
stream_executor # 流 处 理 
一 tensorboard # App、Web 支 持 ， 以 及 脚本 支持 
| 一 tensorflow.bzl 
— tf_exported_symbols.lds 
| 一 tf version script.lds 
一 tools # 一 些 工具 杂项 
| 一 user ops 


L— workspace.bzl 














IEENNI 









































TTT 











下 面 我 们 就 简单 介绍 几 个 重点 目录 。 


5.1.1 contirb 


contrib 目 录 中 保存 的 是 将 常用 的 功能 封装 成 的 高 级 API。 但 是 这 个 
目录 并 不 是 官方 支持 的 ， 很 有 可 能 在 高 级 API 完 善后 被 官方 迁移 到 核心 
的 TensorFlow 目 录 中 或 去 掉 ， 现 在 有 一 部 分 包 (package) 

在 https://github.com/tensorflow/models 有 了 更 完整 的 体现 。 这 里 重点 介 
绍 几 个 常用 包 ，。 








e framework: 1& rZ Cülget variables, get global step) 都 在 这 里 
定义 ， 还 有 一 些 废 弃 或 者 不 推荐 (deprecated) 的 函数 。 


e layers: 1X74 E22 Finitializers.py. layers.py. optimizers.py. 
regularizers.py、summaries.py 等 文件 。initializers.py 中 主要 是 做 变量 
初始 化 的 函数 。layers.py 中 有 关于 层 操 作 和 权重 偏 置 变量 的 函数 。 
optimizers.py 中 包含 损失 函数 和 global_step 张 量 的 优化 器 操作 。 
regularizers.py 中 包含 带 有 权重 的 正则 化 函数 。summaries.py 中 包含 
将 摘要 操作 〈 见 4.4.2 节 可 视 化 API) 添加 到 
tt.GraphKeys.SUMMARIES 集 合 中 的 函数 。 
learn: 这 个 包 是 使 用 TensorFlow 进 行 深度 学 习 的 高 级 API， 包 括 完 
成 训练 模型 和 评估 模型 、 读 取 批 处 理 数 据 和 队列 功能 的 API 封 装 。 
mn: 这 个 包 提供 了 额外 的 RNN Cell， 也 就 是 对 RNN 隐 藏 层 的 各 种 
改进 ， 如 LSTMBlockCell、GRUBlockCell、FusedRNNCell、 
GridLSTMCell、AttentionCellWrapper 等 。 
e seq2seq: 这 个 包 提 供 了 建立 神经 网 络 seq2seq 层 和 损失 函数 的 操 
Ie 
e slim: TensorFlow-Slim (TF-Slim) 是 一 个 用 于 定义 、 训 练 和 评估 
TensorFlow 中 的 复杂 模型 的 轻 量 级 库 。 在 使 用 中 可 以 将 TF-Slim 与 
TensorFlow 的 原生 函数 和 tft.contrib 中 的 其 他 包 进 行 目 由 组 合 。TE- 
Slim 现在 已 经 被 逐渐 迁移 到 TensorFlow 开 源 的 Models H 中 ， 这 里 包 
含 了 几 种 广泛 使 用 的 卷 积 神经 网 络 岁 像 分 类 模型 的 代码 ， 可 以 从 头 
训练 模型 或 者 预 训练 模型 开始 微调 。TF-Slim 非 常 有 用 ， 在 12.1 节 中 
会 用 到 。 











5.1.2 core 





这 个 目录 中 保存 的 都 是 C 语 言 的 文件 ， 是 TensorFlow 的 原始 实现 。 


| 一 BUILD 





I— common runtime # 公共 运行 库 
— debug 


一 distributed runtime # 分 布 式 执行 模块 ， 含 有 grpc session. grpc worker. gr 








L— framework # 基础 功能 模块 
— graph 
一 kernels # 一 些 核心 操作 在 CPU、CUDA 内 核 上 的 实现 
[— lib # 公共 基础 库 
I— ops 

[— platform # 操作 系统 实现 相关 文件 

一 protobuf # .proto 文 件 ， 用 于 传输 时 的 结构 序列 化 
一 public # API 的 头 文件 目录 























Protocol Buffers 是 谷歌 公司 创建 的 一 个 数据 序列 化 加 
(serialization) 工具 ， 可 以 用 于 结构 化 数据 序列 化 ， 很 适合 作为 数据 存 
储 或 者 RPC 数 据 交 换 的 格式 。 定 义 完 协议 缓冲 区 后 ， 将 生成 .pb.h 
和 .pb.cc 文 件 ， 其 中 定义 了 相应 的 get、set 以 及 序列 化 和 反 序 列 化 函数 。 
TensorFlow 的 几 个 核心 proto 文 件 graph_def.proto、node_def.proto、 





op_def.proto 都 保存 在 framework 目 录 中 。 构 图 时 先 构 建 graph_def， 存 储 
下 来 ， 然 后 在 实际 计算 时 再 转 成 如 图 、 节 点 、 操 作 每 的 内 存 对 象 。 


下 面 以 tensorflow-1.1.0/tensorflow/core/framework/node_def.proto 为 例 


来 说 明定 义 proto 文 件 的 过 程 。node_def.proto 定 义 中 指定 了 设备 
(device) 操作 Cop) 以 及 操作 的 属性 Catt) 。 代 人 码 如 下 : 


syntax = "proto3"; 


package tensorflow; 


option cc enable arenas = true; 


option java outer classname = "NodeProto"; 
option java multiple files - true; 
option java package = "org.tensorflow. framework"; 


import "tensorflow/core/framework/attr value.proto"; 


message NodeDef { 
string name = 1; # 操作 的 名 称 
string op = 2; # 操作 的 名 称 
repeated string input = 3; # 每 个 input 指明 了 当前 节点 来 自 哪个 节点 的 第 几 个 张 


E. 
里 ， 











# 格式 是 node:index 
string device = 4; # 指定 device 方 法 
map«string, AttrValue> attr = 5; # 其 中 AttrValue 又 是 另外 一 个 协议 缓冲 区 
}; 





framework H 3€ H3ffnode def builder.h. node def builder.cc. 
node def util.h. node def util test,cc 等 文件 ， 这 都 是 为 了 在 C++ 里 能 操 
作 上 面 代码 中 定义 的 node_def.proto 的 protobuf 结构 。 


5.1.3 examples 


examples 目 录 中 给 出 了 深度 学 习 的 一 些 例 子 ， 包 括 MNIST、 
Word2vec、Deepdream、Iris、HDF5 的 一 些 例 子 ， 对 入 门 非常 有 帮助 。 
此 外 ， 这 个 目录 中 还 有 TensorFlow 在 Android 系 统 上 的 移动 端 实现 ， 以 及 
一 些 扩展 为 .jpynb 的 文档 教程 ， 可 以 用 jupyter 打 开 〈 使 用 方式 参见 2.4.3 
Ts 


5.1.4 g3doc 


TensorFlow 的 文档 是 用 Markdown 在 维护 的 ， 并 存放 在 g3doc 中 。 
g3doc 目 录 可 以 认为 是 TensorFlow 的 离线 手册 ， 非 常 好 用 。 


g3doc/api_docs 目 录 中 的 任何 内 容 都 是 从 代码 中 的 注释 生成 的 ， 不 
应 该 直接 编辑 。 脚 本 tools/docs/gen_docs.sh 是 用 来 生成 API 文 档 的 。 如 果 
无 参数 调用 ， 它 只 重新 生成 Python API 文 档 ( 即 操作 的 文档 ， 包 括 用 
Python 和 C ++ 定 义 的 ) 。 如 果 传 递 了 -a， 运 行 脚本 时 还 会 重新 生成 C++ 
API 的 文档 。 这 个 脚本 必须 从 tools/docs 目 录 调 用 ， 如 果 使 用 参数 -a， 需 
要 安装 doxygen 9! 。 





5.1.5 python 


第 4 章 中 介绍 的 很 多 函数 的 实现 都 是 在 python 这 个 目录 中 。 例 如 ， 
4.7 节 中 的 激活 函数 、 卷 积 图 数 、 池 化 函数 、 损 失 函 数 、 优 化 方法 等 。 


5.1.6 tensorboard 








tensorboard 目 录 中 是 实现 TensorFlow 图 表 可 视 化 工具 的 代码 ， 代 三 
是 基于 Tornado ^! 来 实现 网 页 端 可 视 化 的 。 





5.2 ”TensorFlow 产 代码 的 学 习 方 法 





如 何 高 效 地 学 习 TensorFlow 源 代码 呢 ? 很 多 人 在 接触 TensorFlow 后 
会 目 先 问 这 个 问题 。 下 面 我 就 介绍 一 下 TensorFlow 源 代码 的 学 习 步 又 。 


(1) 了 解 自己 要 研究 的 基本 领域 ， 如 图 像 分 类 、 物 体检 测 、 语 音 
识别 等 ， 了 解 对 应 这 个 领域 所 用 的 技术 ， 如 卷 积 神经 网 络 
(convolutional neural network, CNN) 和 循环 神经 网 络 〈recurrent 
neural network, RNN) ， 知 道 实现 的 基本 原理 。 





(2) 尝试 运行 GitHub 上 对 应 的 基本 模型 5 ， 其 目录 结构 如 下 : 





I— AUTHORS 

| 一 CONTRIBUTING .md 
— LICENSE 

| 一 README .md 


| 一 compression 
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im2txt 

inception 

lm 1b 

namignizer 

neural gpu 

neural programmer 
next frame prediction 
resnet 

slim 
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swivel 

syntaxnet 
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fD 
x 
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fD 
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c 
ct 
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video_prediction 


如 采 研 究 领域 是 计算 机 视觉 ， 可 以 看 代码 中 的 如 下 几 个 目录 : 
compresssion 〈 图 像 压 缩 ) ~ im2txt (ARH) ~ inception (Xf 
ImageNet 数 据 集 用 Inception V3 架 构 去 训练 和 评估 ) ~ resnet GRZ] 
络 ) . slim 〈 图 像 分 类 ) 和 street〈 路 标识 别 或 验证 人 码 识别 ) 。 


如 果 研 究 领域 是 自然 语言 处 理 ， 可 以 看 Im_1b “语言 模型 〉、 
namignizer (HF) 、swivel (使 用 Swivel 算 法 转换 词 向 量 ) 、 
syntaxnet 〈 分 词 和 语法 分 析 ) 、textsum (文本 摘要 )〉 Ul tutorials H 3€ 
里 的 word2vec 词 转换 为 同 量 ) 。 





这 些 都 是 教科 书 式 的 代码 ， 看 懂 学 懂 对 今后 自己 实现 模型 大 有 神 
益 。 尝 试 运行 上 述 模 型 ， 并 对 模型 进行 调试 和 调 参 。 当 你 完整 阅读 完 
MNIST 或 者 CIFAR10 整 个 项 目的 逻辑 后 ， 束 会 掌握 TensorFlow 项 目 染 
构 。 








这 里 ， 我 着重 说 一 下 slim 目 录 。 


slim 目 录 中 的 TF-Slim 是 图 像 分 类 的 一 个 库 ， 它 包含 用 于 定义 、 训 练 
和 评估 复杂 模型 的 轻 量 级 高 级 API。 可 以 用 于 训练 和 评估 的 几 个 广泛 使 
用 的 CNN 图 像 分 类 模型 ， 如 lenet、alexnet、vgg、inception_V1、 
inception_v2、inception_v3、inception_v4、resnet_v1、resnet_Vv2 等 ， 这 


些 模型 都 位 于 slim/nets 中 ， 具 体 如 下 : 


alexnet.py 
alexnet_test.py 
cifarnet.py 
inception. py 
inception_resnet_v2.py 
inception_resnet_v2_test.py 
inception_utils.py 
inception_v1.py 
inception v1 test.py 
inception v2.py 
inception v2 test.py 
inception v3.py 
inception v3 test.py 
inception v4.py 
inception v4 test.py 
lenet.py 

nets factory.py 

nets factory test. 
overfeat.py 

overfeat test.py 
resnet utils.py 
resnet_v1.py 
resnet v1 test.py 
resnet v2.py 
resnet v2 test.py 
v88. Py 

veg test.py 


— 
— 
| 一 
— 
| 一 
— 
| 一 
— 
— 
— 
| 一 
— 
| 一 
— 
| 一 
— 
| 一 
— 
| 一 
— 
| 一 
— 
— 
| 一 
— 
| 一 
上 一 





TF-Slim 包 含 的 脚本 可 以 让 人 从 头 训练 模型 或 从 预先 训练 的 网 络 开 
台 训 练 模型 并 微调 ， 这 些 脚 本 位 于 slim/scripts， 有 具体 如 下 : 





— finetune_inception_v1_on_flowers.sh 
| 一 finetune inception v3 on flowers.sh 
— train_cifarnet_on_cifar10.sh 

L— train_lenet_on_mnist.sh 


TF-Slim 还 包含 用 于 下 载 标 准 图 像 数 据 集 ， 将 其 转换 为 TensorFlow 
支持 的 TFRecords 格 式 ， 这 些 脚 本 位 于 slim/datasets， 具 体 如 下 : 


I— cifar10.py 

— dataset_factory.py 

— dataset_utils.py 

— download_and_convert_cifar1@.py 
— download_and_convert_flowers.py 
| 一 download_and_convert_mnist.py 
| 一 flowers. py 

— imagenet.py 

L— mnist.py 





随后 可 以 轻松 地 在 任何 上 述 数据 集 上 训练 任何 模型 。 


(3) 结合 要 做 的 项 目 ， 找 到 相关 的 论文 ， 自 己 用 TensorFlow 实 现 
这 篇 论文 的 内 容 ， 这 会 让 你 有 一 个 质 的 飞跃 。 


上 面 介 绍 的 学 习 方 法 在 本 书 “ 实 战 篇 ”中 会 再 结合 例子 进行 讲解 。 
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本 章 人 简略 地 解析 了 TensorFlow 源 代码 ， 介 绍 了 它 的 主要 的 日 录 结 
构 ， 以 及 一 些 模块 的 位 置 和 功能 ， 还 介绍 了 TensorFlow 的 源 代码 学 习 方 
法 ， 建 议 读者 可 以 自己 多 去 研究 。 





[1] https://github.com/tensorflow/models/tree/master/slim 


[2] 序列 化 是 指 将 对 象 的 状态 信息 转换 为 可 以 存储 或 传输 的 形式 的 过 


O 
Eo 


[3] ”内 容 参 考官 方 网 站 


https://www.tensorflow.org/community/documentation 。 
[4] http://www.tornadoweb.org/en/stable/ 


[5] https://github.com/tensorflow/models 


第 6 章 ”神经 网 络 的 发 展 及 其 TensorFlow 实 现 


卷 积 神经 网 络 (convolutional neural network, CNN) 的 演进 从 
LeNet 到 AlexNet， 再 到 VggNet、GoogLeNet， 最 后 到 ResNet， 演 进 的 方 
式 有 一 定 规律 ， 并 且 也 在 ImageNet LSVRC 竞 赛 上 用 120 万 张 图 片 、1000 
类 标记 上 取得 了 很 好 的 成 绩 。 循 环 神经 网 络 (recurrent neural 
networks, RNN) 的 演进 从 Vanilla RNN 到 隐藏 层 结构 精巧 的 GRU 和 
LSTM， 再 到 双向 和 多 层 的 Deep Bidirectional RNN。 本 章 主要 介绍 这 些 
神经 网 络 模型 的 结构 和 演化 脉络 ， 并 且 和 尝试 用 TensorFlow 去 构建 这 些 网 
络 ， 为 读者 将 来 自己 设计 网 络 或 者 根据 读 到 的 论文 构建 网 络 模型 打下 基 
Fiti o 


6.1 AUTRES IR 


卷 积 神经 网 络 (CNN) ， 属 于 人 工 神经 网 络 的 一 种 ， 它 的 权 值 共享 
(weight sharing) 的 网 络 结构 显著 降低 了 模型 的 复杂 度 ， 减 少 了 权 值 的 
数量 ， 是 目前 语音 分 析 和 图 像 识 别 领域 研究 热点 。 








在 传统 的 识别 算法 中 ， 我 们 需要 对 输入 的 数据 进行 特征 提取 和 数据 
重建 ， 而 卷 积 神经 网 络 可 以 直接 将 图 片 作为 网 络 的 输入 ， 目 动 提取 特 
征 ， 并 且 对 图 片 的 变形 《如 平移 、 比 例 缩放 、 倾 斜 ) 等 具有 高 度 不 变 
É. 











那 什 么 是 卷 积 Cconvolution). WE? 卷 积 是 泛 函 分 析 中 的 一 种 积分 变 
换 的 数学 方法 ， 通 过 两 个 函数 f 和 g 生成 第 三 个 函数 的 一 种 数学 算 子 ， 
表征 函数 f 与 g 经 过 翻转 和 平移 的 重 欠 部 分 的 面积 。 Ef (x ) 和 g (x ) 是 R 
1 上 的 两 个 可 积 函 数 ， 做 积分 后 的 新 函数 就 称 为 函数 f 与 g 的 卷 积 : 


我 们 知道 ， 神 经 网 络 (neural networks, NN) 的 基本 组 成 包括 输入 
层 、 隐 藏 层 、 输 出 层 。 卷 积 神经 网 络 的 特点 在 于 隐藏 层 分 为 卷 积 层 和 
池 化 层 (pooling layer， 又 叫 下 采样 层 ) 。 卷 积 层 通过 一 块 块 卷 积 核 
(conventional kernel) 在 原始 图 像 上 平移 来 提取 特征 ， 每 一 个 特征 就 是 
一 个 特征 了 映射 ， 而 池 化 层 通过 汇聚 特征 后 稀 玻 参数 来 减少 要 学 习 的 参 
数 ， 降 低 网 络 的 复杂 上 度 ， 池 化 层 最 常见 的 包括 最 大 值 池 化 (max 
pooling) 和 平均 值 池 化 (average pooling) ， 如 图 6-1 所 示 。 








图 6-1 [H 


卷 积 核 在 提取 特征 映射 时 的 动作 称 为 padding， 其 有 两 种 方式 ， 即 
SAME 和 VALID。 由 于 移动 步 长 (Stride) 不 一 定 能 整除 整 张 图 的 像素 
宽度 ， 我 们 把 不 越过 边缘 取样 称 为 Valid Padding， 取 样 的 面积 小 于 输入 
图 像 的 像素 宽度 ;越过 边缘 取样 称 为 Same Padding， 取 样 的 面积 和 输入 
图 像 的 像素 宽度 一 致 。 在 图 6-2 中 ， 左 边 为 Valid Padding, HiZASame 
Padding 。 


图 6-2 [21 





关于 卷 积 神 经 网 络 的 推导 和 实现 可 参考 相关 论文 |。 


6.2 GIRI ANA AIR 


神经 网 络 的 发 展 过 程 如 图 6-3 所 示 。 本 图 参考 了 中 国 科 学 院 计 算 技 
术 研 究 所 刘 昕 博士 整理 的 卷 积 神经 网 络 结构 演化 的 历史 。 


网 络 加 深 
二 者 结合 
增强 卷 积 层 的 功能 | 
















Incption V3 
Incption V4 


Dropart 
ReLu 
GPU+ 大 数据 


卷 积 神经 网 络 发 展 的 起 点 是 神经 认 知 机 Cneocognitron) 模型 ， 当 
时 已 经 出 现 了 卷 积 结构 。 第 一 个 卷 积 神经 网 络 模型 LeCun 诞 生 于 1989 
年 ， 其 发 明 人 是 LeCun。 学 习 卷 积 神经 网 络 的 读本 是 Lecun 的 论文 由， 
在 这 篇 论文 里 面 较 为 详尽 地 解释 了 什么 是 卷 积 神经 网 络 ， 并 且 曾 述 了 为 
I BERRA, ATP ARERR, FEI aE PKA (radial basis function, 
RBF) 怎么 用 ， 等 等 。 











1998 年 LeCun 提 出 了 LeNet， 但 随后 卷 积 神经 网 络 的 锋芒 逐渐 被 
SVM 等 手工 设计 的 特征 的 分 类 器 盖 过 。 随 着 ReLU 和 Dropout 的 提出 ， 以 
及 GPU 和 大 数据 带 来 的 历史 机 遇 ， 卷 积 神经 网 络 在 2012 年 迎 来 了 历史 性 
突破 一 一 AlexNet。 


如 图 6-3 所 示 ，AlexNet 之 后 卷 积 神经 网 络 的 演化 过 程 主要 有 4 个 方 
向 的 演化 : 一 个 是 网 络 加 深 ， 二 是 增强 卷 积 层 的 功能 ， 三 是 从 分 类 任务 
到 检测 任务 ， 四 是 增加 新 的 功能 模块 。 


下 面 就 简单 讲述 各 个 阶段 的 几 个 网 络 的 结构 及 特点 。 
6.2.1 网络 加 深 
1. LeNet 


LeNet 的 论文 详 见 
http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf 。LeNet 包 含 
的 组 件 如 下 。 


e 输入 层 : 32x32. 

e GRJ: 3 个 。 

e 降 采 样 层 : 2 个 。 

。 全 连接 层 : 1 个 。 

。 输出 层 〈 高 斯 连接 ) : 10 个 类 别 〈 数 字 0 一 9 的 概率 ) 。 


LeNet 的 网 络 结构 如 图 6-4 所 示 。 


图 6-4 
下 面 就 介绍 一 下 各 个 层 的 用 途 及 意义 。 


(1) 输入 层 。 输 入 图 像 尺寸 为 32x32。 这 要 比 MNIST 数 据 集中 的 字 
BE (28x28) 还 大 ， 即 对 图 像 做 了 预 处 理 reshape 操 作 。 这 样 做 的 目的 是 
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卷 积 核 的 中 心 。 











(2) 卷 积 层 (C1, C3, C5) 。 卷 积 运算 的 主要 目的 是 使 原 信 号 特征 
增强 ， 并 且 降 低 噪 音 。 在 一 个 可 视 化 的 在 线 演示 示例 S 中 ， 我 们 可 以 
看 出 不 同 的 卷 积 核 输出 特征 映射 的 不 同 ， 如 图 6-5 所 示 。 





(3) 下 采样 层 〈S2, S4) 。 下 采样 层 主 要 是 想 降低 网 络 训 练 参数 及 
模型 的 过 拟 合 程度 。 通 常 有 以 下 两 种 方式 。 





最 大 池 化 Cmax pooling) : 在 选中 区 域 中 找 最 大 的 值 作为 采样 后 
的 值 。 

平均 值 池 化 (mean pooling) : 把 选中 的 区 域 中 的 平均 值 作为 采样 
后 的 值 。 





(4) 全 连接 层 (F6) 。F6 是 全 连接 层 ， 计 算 输 入 同 量 和 权重 问 量 
的 点 积 ， 再 加 上 一 个 偏 置 。 随 后 将 其 传递 给 sigmoid 函 数 ， 产 生 单元 i 的 
zd e 


(5) fth. "rh E BIGGER XE (Euclidean radial basis 
function) 单元 组 成 ， 每 个 类 别 〈 数 字 的 0 一 9) o8 wi— 4 n] di pr CER. 
元 ， 每 个 单元 有 84 个 输入 。 也 就 是 说 ， 每 个 输出 RBF 单 元 计算 输入 问 量 
和 该 类 别 标记 辣 量 之 间 的 欧式 距离 。 距 离 越 远 ，RBF 输 出 越 大 。 








经 过 测试 ， 采 用 LeNet，6 万 张 原始 图 片 的 数据 集 ， 错 误 率 能 够 降低 
到 0.95%; 54 万 张 人 工 处 理 的 失真 数据 集合 并 上 6 万 张 原始 图 片 的 数据 
集 ， 错 误 率 能 够 降低 到 0.8%。 | 


接着 ， 历 史 转 折 发 生 在 2012 年 ，Geoffrey Hinton 和 他 的 学 生 Alex 
Krizhevsky 在 ImageNet 苑 赛 中 一 举 夺 得 图 像 分 类 的 冠军 ， 刷 新 了 图 像 分 
类 的 记录 ， 通 过 比赛 回应 了 对 卷 积 方法 的 质疑 。 比 赛 中 他 们 所 用 网 络 称 
为 AlexNet。 
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Ca) 原始 图 像 
0.00 0.00 0.00 0.00 0.00 
0.00 0.00 -2.00 0.00 0.00 
0.00 -2.00 9.00 | -2.00 0.00 
0.00 0.00 -2.00 0.00 0.00 
0.00 0.00 0.00 0.00 0.00 


(b) 锐 化 卷 积 
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Cc) 边缘 卷 积 
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2. AlexNet 


AlexNet 在 2012 年 的 ImageNet 图 像 分 类 竞赛 中 ，Top-5 错 误 率 为 
15.3%; 2011 年 的 冠军 是 采用 基于 传统 浅 层 模型 方法 ，Top-5 错 误 率 为 
25.8%。AlexNet 也 远 远 超过 2012 年 竞赛 的 第 二 名 ， 错 误 率 为 26.2%。 
AlexNet 的 论文 详 见 Alex Krizhevsky. Ilya Sutskever 和 Geoffrey E. Hinton 


的 《ImageNet Classification with Deep Convolutional Neural Networks) 
[7] 


AlexNet 的 结构 如 图 6-6 所 示 。 图 中 明确 显示 了 两 个 GPU 之 间 的 职责 
划分 : 一 个 GPU 运行 图 中 顶部 的 层次 部 分 ， 另 一 个 GPU 运行 图 中 底部 的 
层次 部 分 。GPU 之 间 仅 在 某 些 层 互 相通 信 。 


图 6-6 


AlexNet 由 5 个 卷 积 层 、5 个 池 化 层 、3 个 全 连接 层 ， 大 约 5000 万 个 可 
调 参数 组 成 。 最 后 一 个 全 连接 层 的 输出 被 送 到 一 个 1000 维 的 softmax 
层 ， 产 生 一 个 履 盖 1000 类 标记 的 分 布 。 








AlexNet 之 所 以 能 够 成 功 ， 让 深度 学 习 卷 积 的 方法 重 回 到 人 们 视 
野 ， 原 因 在 于 使 用 了 如 下 方法 。 





e 防止 过 拟 合 : Dropout、 数 据 增强 (data augmentation) 。 
e 非 线性 激活 函数 : ReLU。 
。 大 数据 训练 : 120 万 〈 百 万 级 ) ImageNet 图 像 数据 。 


e GPU 实现 、LRN (local responce normalization) 规范 化 层 的 使 用 。 


要 学 习 如 此 多 的 参数 ， 并 且 防 止 过 拟 合 ， 可 以 采用 两 种 方法 : 数据 
增强 和 Dropout。 


OD 数据 增强 : 增加 训练 数据 是 避免 过 拟 合 的 好 方法 ， 并 且 能 提 
升 算 法 的 准确 率 。 当 训练 数据 有 限 的 时 候 ， 可 以 通过 一 些 变换 从 已 有 的 
训练 数据 集中 生成 一 些 新 数据 ， 来 扩大 训练 数据 量 。 通 第 采用 的 变形 方 
式 以 下 儿 种 ， 具 体 效果 如 图 6-7 所 示 。 








。 水平 翻 转 图 像 (又 称 反 射 变 化 ，flip〉。 

。 从 原始 图 像 ( 大 小 为 256x256)〉 随 机 地 平移 变换 (crop〉 出 一 些 图 
像 ( 如 大 小 为 224x224) . 

。 给 图 像 增 加 一 些 随机 的 光照 〈 又 称 光 照 、 彩 色 变 换 、 颜 色 抖 动 ) 。 


(2) Dropout。AlexNet 做 的 是 以 0.5 的 概率 将 每 个 隐 层 神经 元 的 输 
出 设置 为 0。 以 这 种 方式 被 抑制 的 神经 元 既 不 参与 前 回 传播 ， 也 不 参与 
反问 传播 。 因 此 ， 每 次 输入 一 个 样本 ， 就 相当 于 该 神经 网 络 尝 试 了 一 个 
新 结构 ， 但 是 所 有 这 些 结构 之 间 共 享 权 重 。 因 为 神经 元 不 能 依赖 于 其 他 
神经 元 而 存在 ， 所 以 这 种 技术 降低 了 神经 元 复杂 的 互 适应 关系 。 因 此 ， 
网 络 需 要 被 迫 学 习 更 为 健壮 的 特征 ， 这 些 特 征 在 结合 其 他 神经 元 的 一 些 
不 同 随机 子 集 时 很 有 用 。 如 果 没 有 Dropout， 我 们 的 网 络 会 表现 出 大 量 
的 过 拟 合 。Dropout 使 收敛 所 需 的 迭代 次 数 大 致 增加 了 一 倍 。 





Ca) 水 平 翻转 (b) 随机 平移 变换 Cc) 颜色 抖动 


图 6-7 


Alex 用 非 线性 激活 函数 relu 代 替 了 sigmoid， 发 现 得 到 的 SGD 的 收敛 
速度 会 比 sigmoid/tanh 快 很 多 。 


单个 GTX 580 GPU 只 有 3 GB 内 存 ， 因 此 在 其 上 训练 的 数据 规模 有 
限 。 从 AlexNet 结 构图 可 以 看 出 ， 它 将 网 络 分 布 在 两 个 GPU 上 ， 并 且 能 
够 直接 从 另 一 个 GPU 的 内 存 中 读 出 和 写 入 ， 不 需要 通过 主机 内 存 ， 极 大 
地 增加 了 训练 的 规模 。 


6.2.2 ”增强 卷 积 层 的 功能 
1. VGGNet 


VGGNet 可 以 看 成 是 加 深 版 本 的 AlexNet， 参 见 Karen Simonyan 和 
Andrew Zisserman 的 论文 《Very Deep Convolutional Networks for Large- 


Scale Visual Recognition) |! 。 


VGGNet 和 下 文中 要 提 到 的 GoogLeNet 是 2014 年 ImageNet 竞 赛 的 第 
二 名 和 第 一 名 ，Top-5 错 误 率 分 别 为 7.32% 和 6.66% 91 。VGGNet 也 是 5 个 
卷 积 组 、2 层 全 连接 图 像 特征 、1 层 全 连接 分 类 特征 ， 可 以 看 作 和 
AlexNet 一 样 总 共 8 个 部 分 。 根 据 前 5 个 卷 积 组 ，VGGNet 论 文中 给 出 了 A 


~ 了 这 5 种 配置 ， 如 图 6-8 所 示 。 卷 积 层 数 从 8 (ABLE) 2116 (E 配 置 ) 
递增 。VGGNet 不 同 于 AlexNet 的 地 方 是 : VGGNet 使 用 的 层 更 多 ， 
有 16 一 19 层 ， 而 AlexNet 只 有 8 层 。VGGNet 的 结构 如 图 6-8 所 示 。 


从 VGGNet 的 论文 中 可 以 看 出 ， 随 着 卷 积 层 从 8 到 16 的 一 步 步 加 深 ， 
通过 加 深 卷 积 层 数 已 经 到 达 了 准确 率 提 升 的 瓶 人 席 。 从 论文 中 给 出 的 结果 
(如 图 6-9 所 示 〉 可 以 看 到 ， 再 加 深 模 型 ， 错 误 率 已 经 很 难 再 降低 了 。 

















VGG 和 SVM 结 合 





图 6-9 
2. GoogLeNet 


提 到 GoogleNet， 我 们 首先 要 说 起 NIN (Network in Network) 的 思 
Aa H0 ( 详 见 Min Lin 和 Qiang Chen 和 Shuicheng Yan 的 论文 《Network In 


Network) ) ， 它 对 传统 的 卷 积 方法 做 了 两 点 改进 : 将 原来 的 线性 卷 积 
层 (inear convolution layer) 变 为 多 层 感知 卷 积 层 Cnultilayer 
perceptron) ; 将 全 连接 层 的 改进 为 全 局 平均 池 化 。 这 使 得 卷 积 神经 网 
络 癌 男 一 个 演化 分 支 一 一 增强 卷 积 模块 的 功能 的 方向 演化 ，2014 年 诞生 
Jf GoogLeNet (RẸ Inception V1) 。 谷 歌 公 司 提出 的 GoogLeNet 是 2014 年 
ILSVRC 挑 战 赛 的 冠军 ， 它 将 Top-5 的 错误 率 降 低 到 了 6.67%。 
GoogLeNet 的 更 多 内 容 详 见 Christian Szegedy 和 Wei Liu 等 人 的 论文 


(Going Deeper with Convolutions》 HH 。 





GoogLeNet 的 网 络 的 中 段 结构 如 图 6-10 所 示 。 


图 6-10 


论文 中 介绍 了 如 何 发 现 Inception 模 型 的 最 优 结构 ， 如 图 6-11 所 示 。 
原始 的 设计 见 图 6-11 的 左 侧 ， 使 用 1x1、3x3、5x5 的 卷 积 核对 应 图 像 的 
区 域 ， 然 后 连接 起 来 到 全 连接 层 。 降 维 后 的 设计 如 图 6-11 的 右 侧 ， 使 用 
1x1 的 卷 积 核 进行 降 维 ， 在 全 连接 层 将 1x1、3x3、5x5 的 卷 积 结果 连接 
起 来 。 这 样 做 使 网 络 的 宽度 和 深度 均 可 扩大 。 使 用 了 Inception 模 型 的 结 
构 可 以 有 2 一 3 倍 的 加 速 。 





图 6-11 
GoogLeNet 的 主要 思想 是 围绕 “深度 "和 “宽度 ”去 实现 的 。 


CD 深度 。 层 数 更 深 ， 论 文中 采用 了 22 层 。 为 了 避免 梯度 消失 问 
题 ，GoogLeNet 巧 妙 地 在 不 同 深度 处 增加 了 两 个 损失 函数 来 避免 反 同 传 
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(2) 宽度。 增加 了 多 种 大 小 的 卷 积 核 ， 如 1x1、3x3、5x5， 但 并 没 
有 将 这 些 全 都 用 在 特征 映射 上 ， 都 结合 起 来 的 特征 映射 厚度 将 会 很 大 。 
但 是 采用 了 图 6-11 右 侧 所 示 的 降 维 的 Inception 模 型 ， 在 3x3、5x5 卷 积 
前 ， 和 最 大 池 化 后 都 分 别 加 上 了 1x1 的 卷 积 核 ， 起 到 了 降低 特征 映射 厚 
度 的 作用 。 





3. ResNet 


把 网 络 加 深 和 增强 卷 积 模 块 功能 两 个 演化 方向 相 结合 ， 诞 生 了 
ResNet (Residual Network, RÆ) . ReNet#é20154FILSVRC EAE 
中 不 依赖 外 部 数据 的 物体 检测 和 物体 识别 两 个 项 目的 冠军 ， 是 由 MSRA 
何 凯 明 团 队 提 出 的 ， 训 练 深 达 152 层 的 网 络 。 同 时 ，MSRA 也 是 2015 年 
ImageNet 苑 赛 的 大 万 家 ， 在 分 类 、 检 测 、 定 位 以 及 COCO 数 据 集 上 的 检 
J| Cdetection) 和 分 隔 (segmentation〉， 都 获得 了 冠军 。 图 6-12 展示 
的 是 一 个 34 层 的 ResNet 的 结构 。 残 差 网 络 的 更 多 内 容 详 见 Kaiming 
He, Xiangyu Zhang, Shaoqing Ren 和 Jian Sun 的 论文 《Deep Residual 
[12] 
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按照 一 般 的 经 验 ， 只 要 没有 发 生 梯 度 消 失 或 者 梯度 爆炸 ， 并 且 不 过 
拟 合 ， 网 络 应 该 是 越 深 越 好 。 但 是 ， 论 文 作者 在 CIFAR10 上 训练 网 络 时 
却 发 现 ， 层 数 从 20 层 增加 到 56 层 ， 错 误 率 上 升 了 ， 准 确 率 下 降 了 ， 如 图 
6-13 所 示 。 





图 6-12 


图 6-13 


这 种 情况 被 称 为 网 络 退化 (network degradation) 。 为 此 ResNet 中 
引入 了 一 个 shortcut 结 构 ( 指 图 6-12 中 卷 积 层 之 间 的 带 箭头 的 曲线 部 
分 ) ， 将 输入 跳 层 传递 与 卷 积 的 结果 相 加 。 


关于 ResNet 中 残 差 (residual) 的 含义 ， 其 实 是 如 果 能 用 几 层 网 络 
去 通 近 一 个 复杂 的 非 线性 映射 瑟 (x ) 来 预测 图 片 的 分 类 ， 那 么 同样 可 以 
FS J WE eR As Vr Ak Ze ek BL (residual function) F (x )= H (x )-x 
» FFA BUNW ADE Ae RS E EL ELH (x ) 简 单 。 





6.2.3 ”从 分 类 任务 到 检测 任务 


从 分 类 任务 到 检测 任务 这 个 演化 方向 经 历 了 从 R-CNN 到 Fast R- 
CNN， 再 到 Faster R-CNN 的 演化 。 


R-CNN 可 以 看 作 是 Region Proposal Networks !?! (RPN) 和 CNN 结 
合 的 力作 。 在 InageNet、VOC、MSCOCO 数 据 集 上 都 曾经 取得 过 很 好 
的 效果 。 但 它 的 主要 缺点 是 重复 计算 ， 因 为 最 后 建议 的 区 域 (region) 
有 几 干 个 ， 多 数 都 是 互相 重 舍 的 ， 重 闭 的 部 分 会 被 多 次 重复 提取 特性 。 





Fast R-CNN 是 R-CNN 的 加 速 版 本 ， 将 最 后 建议 的 区 域 映 射 到 CNN 
的 最 后 一 个 卷 积 层 的 特征 映射 上 ， 这 样 一 张 图 片 只 需要 提取 一 次 特征 ， 
大 大 提高 了 速度 。 但 Fast R-CNN 的 速度 瓶颈 在 RPN 上 。 此 外 ，Fast R- 
CNN 文 持 多 类 物体 的 同时 检测 ， 其 行人 与 车 辆 检测 技术 就 是 汽车 高 级 辅 
助 驾 驶 系统 的 关键 技术 之 一 。 











Fater-R-CNN 将 RPN 也 交 给 CNN 来 做 ， 于 是 速度 更 快 ， 可 以 达到 实 
时 。 详 见 Shaoqing Ren、Kaiming He、Ross Girshick 和 Jian Sun 的 论文 
(Faster R-CNN: Towards Real-Time Object Detection with Region 
Proposal Networks) 4l, 


关于 检 训 任务 如 图 片 目标 检测 、 视 频 目 标 检测 CVIDO 的 更 多 资料 
HRA BITE. 








6.2.4 增加 新 的 功能 模块 


增加 新 的 功能 模块 这 个 演化 方向 主要 涉及 FCN 〈 反 卷 积 ) 、 
STNet、CNN 与 RNN/LSTM 的 混合 架构 。 这 部 分 涉及 的 知识 较 深 ， 更 多 
资料 请 读者 自行 查阅 。 








6.3 MNISTHÜ'AlexNet3: Jil 


接 下 来 我 们 就 试 试用 TensorFlow 来 构建 一 个 网 络 模 型 (这 里 以 
AlexNet 为 例 ) 。 构 建 好 模型 后 ， 使 用 MNIST 数 据 来 看 看 训练 结果 如 
何 。 


现在 我 就 一 步 步 介 绍 如 何 将 一 个 好 的 开源 模型 (如 AlexNet) 在 
TensorFlow 上 实现 。MNIST 在 TensorFlow 的 例子 中 是 用 CNN 去 训练 的 ， 
而 我 们 把 原来 普通 的 CNN 更 改 成 AlexNet。 这 里 我 主要 是 参考 代 
人 码 https:/github.com/aymericdamien/TensorFlow- 
Examples/blob/master/examples/ 
3_NeuralNetworks/convolutional_network.py 和 
https://github.com/tensorflow/models/blob/master/ 
tutorials/image/alexnet/alexnet benchmark.py ， 然 后 根据 AlexNet 的 网 络 结 
构图 来 实现 。 


同时 ， 一 次 完整 的 训练 模型 和 评估 模型 的 过 程 一 般 分 为 3 个 步 又 : 
加 载 数据 ， 定 义 网 络 模型 ， 训 练 模型 和 评估 模型 。 接 下 来 就 分 成 这 3 个 
部 分 讲解 我 们 的 代码 。 
6.3.1 加载 数据 


在 加 载 数 据 的 过 程 中 ， 我 们 还 要 定义 模型 的 超 参数 、 模 型 所 用 的 网 
络 的 参数 以 及 数据 的 输入 。 如 下 : 


import tensorflow as tf 








# 输入 数据 
from tensorflow.examples.tutorials.mnist import input_data 
mnist = input data.read data sets("/tmp/data/", one hot-True) 


# 定义 网 络 的 超 参数 
learning rate = 0.001 
training iters = 200000 
batch_size = 128 
display_step = 10 


# 定义 网 络 的 参数 

n_input = 784 # 输入 的 维度 (img shape: 28x28) 
n classes = 10 # 标记 的 维度 (0-9 digits) 
dropout = 0.75 # Dropout 的 概率 ， 输 出 的 可 能 性 


























# 输入 占 位 符 

x = tf.placeholder(tf.float32, [None, n_input]) 

y = tf.placeholder(tf.float32, [None, n_classes]) 
keep_prob = tf.placeholder(tf.float32) #dropout 





6.3.2 ”构建 网 络 模型 


接 下 来 我 们 定义 AlexNet 需 要 用 到 的 卷 积 、 池 化 和 规范 化 操作 。 为 
本人 简单， 我 们 将 这 些 功 能 封 沪 起 来 。 代 码 如 下 : 





# 定义 卷 积 操作 

def conv2d(name, x, W, b, strides=1): 
x = tf.nn.conv2d(x, W, strides=[1, strides, strides, 1], padding-'SAME') 
x = tf.nn.bias add(x, b) 
return tf.nn.relu(x, name-name) # 使 用 relu 激 活 函 数 


# 定义 池 化 层 操作 
def maxpool2d(name, x, k=2): 
return tf.nn.max_pool(x, ksize=[1, k, k, 1], strides=[1, k, k, 1], 
padding='SAME', name=name) 








# 规范 化 操作 


def norm(name, 1 input, lsize=4): 
return tf.nn.lrn(l input, lsize, bias-1.0, alpha-0.001 / 9.0, 
beta-0.75, name-name) 





定义 所 有 的 网 络 参 数 《〈 网 络 参 数 的 具体 值 详 见 AlexNet 的 结构 图 ， 


参见 图 6-6 ) 


， 如 下 : 


# 定义 所 有 的 网 络 参 数 





weights = { 
'wc1': 
'wc2': 
"wo3': 


'wc5': 
'wd1': 
'wd2': 


} 

biases = 
'bc1': 
'bc2': 


'bc3': 
"bc4': 
'bc5': 
'bd1': 
'bd2': 


tf. 
tf. 
tf. 
tox. 
tf. 
tf. 
tf. 
2 GR. 


Variable(tf. 
Variable(tf. 
Variable(tf. 
Variable(tf. 
Variable(tf. 
Variable(tf. 
Variable(tf. 
Variable(tf. 


.Variable(tf. 
.Variable(tf. 
.Variable(tf. 
.Variable(tf. 
.Variable(tf. 
.Variable(tf. 
.Variable(tf. 
.Variable(tf. 





random normal([11, 11, 1, 96])), 
random normal([5, 5, 96, 256])), 
random normal([3, 3, 256, 384])), 
random normal([3, 3, 384, 384])), 
random normal([3, 3, 384, 256])), 
random normal([4*4*256, 4096])), 
random normal([4096, 4096])), 
random normal([4096, 10])) 


random normal([96])), 
random normal([256])), 
random normal([384])), 
random normal([384])), 
random normal([256])), 
random normal([4096])), 
random normal([4096])), 
random normal([n classes])) 


定义 AlexNet 的 网 络 模型 





# 定义 整个 网 络 

def alex_net(x, weights, biases, dropout): 
# Reshape input picture 

x = tf.reshape(x, shape=[-1, 28, 28, 1]) 


# 第 一 层 卷 积 

# 卷 积 

conv1 = conv2d('conv1', x, weights['wc1'], biases['bc1']) 
# 下 采样 

pool1 = maxpool2d('pool1', convi, k=2) 

# 规范 化 

norm1 = norm('norm1', pool1, lsize=4) 





# 第 二 层 卷 积 

# 卷 积 

conv2 = conv2d('conv2', convi, weights['wc2'], biases['bc2']) 
# 最 大 池 化 (向 下 采样 ) 

pool2 = maxpool2d('pool2', conv2, k=2) 

# 规范 化 

norm2 = norm('norm2', pool2, lsize=4) 





# 第 三 层 卷 积 

# 卷 积 

conv3 = conv2d('conv3', norm2, weights['wc3'], biases['bc3']) 
# 下 采样 

pool3 = maxpool2d('pool3', conv3, k=2) 

# 规范 化 

norm3 = norm('norm3', pool3, lsize=4) 





# 第 四 层 卷 积 

conv4 = conv2d('conv4', norm3, weights['wc4'], biases['bc4']) 
# 第 五 层 卷 积 

conv5 = conv2d('conv5', norm3, weights['wc5'], biases['bc5']) 
# 下 采样 

pool5 = maxpool2d('pool5', conv5, k=2) 

# 规范 化 

norm5 = norm('norm5', pool5, lsize-4) 


# 全 连接 层 1 

fc1 = tf.reshape(norm5, [-1, weights['wd1'].get shape().as list()[0]]) 
fci = tf.add(tf.matmul(fc1, weights['wd1']), biases['bd1']) 

fcil = tf.nn.relu(fc1) 

# dropout 

fc1 = tf.nn.dropout(fc1, dropout) 


全 连接 层 2 
fc2 = tf.reshape(fc1, [-1, weights['wd1'].get shape().as list()[0]]) 





fc2 = tf.add(tf.matmul(fc2, weights['wd1']), biases['bd1']) 
fc2 = tf.nn.relu(fc2) 

# dropout 

fc2 = tf.nn.dropout(fc2, dropout) 


# 输出 层 
out = tf.add(tf.matmul(fc2, weights['out']), biases['out']) 
return out 





构建 模型 ， 定 义 损 失 函 数 和 优化 器 ， 并 构建 评估 函数 : 





# 构建 模型 
pred = alex_net(x, weights, biases, keep_prob) 


# 定义 损失 函数 和 优化 器 

cost = tf.reduce mean(tf.nn.softmax cross entropy with logits(pred, y)) 
optimizer = tf.train.AdamOptimizer(learning rate=learning rate).minimize(c 
ost) 








# 评估 函数 
correct pred = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1)) 
accuracy = tf.reduce mean(tf.cast(correct pred, tf.float32)) 











6.3.3 ”训练 模型 和 评估 模型 


训练 模型 和 评估 模型 的 代码 如 下 : 





# 初始 化 变量 


init = tf.global variables initializer() 





with tf.Session() as sess: 
sess.run(init) 
step = 1 
# 开始 训练 ， 直 到 达到 training_iters， 即 266666 
while step * batch_size < training iters: 
batch_x, batch_y = mnist.train.next_batch(batch_size) 
sess.run(optimizer, feed dict-(x: batch x, y: batch y, 
keep prob: dropout}) 
if step % display step == e: 
# 计算 损失 值 和 准确 度 ， 输 出 


loss, acc = sess.run([cost, accuracy], feed dict={x: batch_x, 


























y: batch_y, 
keep prob: 1.}) 
print("Iter " + str(step*batch size) + ", Minibatch Loss- " + \ 
"(:.6f)".format(loss) + ", Training Accuracy= " + \ 
"{:.5F}". format (acc) ) 
step += 1 


print( "Optimization Finished!") 





# 计算 测试 集 的 准确 度 
print("Testing Accuracy:", \ 
sess.run(accuracy, feed dict-(x: mnist.test.images[:256], 
y: mnist.test.labels[:256], 
keep prob: 1.))) 





输出 结果 如 下 : 


Iter 1280, Minibatch Loss- 397151.531250, Training Accuracy= 0.43750 
Iter 2560, Minibatch Loss- 358224.781250, Training Accuracy- 0.48438 
Iter 3840, Minibatch Loss- 208550.218750, Training Accuracy- 0.70312 





我 们 也 可 以 像 实 现 AlexNet 的 模型 这 样 ， 用 TensorFlow 实 现 其 他 网 
络 (如 VGGNet、GoogLeNet、ResNet) ， 上 有 具体 实现 的 步骤 我 们 总 结 如 
F: 


C1) 仔细 研读 该 网 络 的 论文 ， 理 解 每 一 层 的 输入 /输出 值 以 及 网 络 
结构 ; 


(2) 按照 加 载 数据 ， 定 义 网 络 模型 ， 训 练 模型 和 评估 模型 这 样 的 
步骤 实现 网 络 。 


读者 可 以 从 简单 的 VGGNet 开 始 动手 试 
试 。https://github.com/tensorflow/models/tree/master/ slim/nets 有 所 有 这 几 
个 经 典 网 络 的 实现 方式 。 


6.4 ”循环 神经 网 络 [15] 





循环 神经 网 络 主要 是 自然 语言 处 理 Cnatural language processing, 
NLP)》 应 用 的 一 种 网 络 模型 。 它 不 同 于 传统 的 前 馈 神 经 网 络 Cfeed- 
forward neural network, FNN) ， 循 环 神经 网 络 在 网 络 中 引入 了 定性 循 
环 ， 使 信号 从 一 个 神经 元 传递 到 另 一 个 神经 元 并 不 会 马上 消失 ， 而 是 继 
续 存 活 。 这 就 是 循环 神经 网 络 名 称 的 来 历 。 











在 传统 的 神经 网 络 中 ， 输 入 层 到 输出 层 的 每 层 直接 是 全 连接 的 ， 但 
是 层 内 部 的 神经 元 役 此 之 间 没 有 连接 。 这 种 网 络 结构 应 用 到 文本 处 理 时 
却 有 难度 。 例 如 ， 我 们 要 预测 茶 个 单词 的 下 一 个 单词 是 什么 ， 就 需要 用 
到 前 面 的 单词 。 循 环 神经 网 络 的 解决 方式 是 ， 隐 藏 层 的 输入 不 仅 包括 上 
一 层 的 和 输出， 还 包括 上 一 时 刻 该 隐藏 层 的 和 输出。 理论 上 ， 循 环 神经 网 络 
能 够 包含 前 面 的 任意 多 个 时 刻 的 状态 ， 但 实践 中 ， 为 了 降低 训练 的 复杂 
性 ， 一 般 只 处 理 前 面 几 个 状态 的 输出 。 








循环 神经 网 络 的 特点 在 于 它 是 按时 间 顺 序 展开 的 ， 下 一 步 会 受 本 步 
处 理 的 影响 ， 网 络 模 型 如 图 6-14 所 示 。 在 计算 时 间 为 2 的 那 步 时 ， 输 入 
层 和 前 一 步 〈 时 间 为 1) 的 数据 都 会 对 时 间 为 2 的 那 步 的 输出 值 有 影响 。 


图 6-14 [16] 


循环 神经 网 络 的 训练 也 是 使 用 误差 反问 传播 (backpropagation, 
BP) 算法 ， 并 且 参 数 w1、w2 和 w3 是 共享 的 。 但 是 ， 其 在 反 辐 传播 中 ， 
不 仅 依 赖 当 前 层 的 网 络 ， 还 依赖 前 面 徊 干 层 的 网 络 ， 这 种 算法 称 为 随时 


间 反 问 传 播 (backpropagation through time, BPTT) 算法 。BPTT 算 法 
是 BP 算法 的 扩展 ， 可 以 将 加 载 在 网 络 上 的 时 序 信 号 按 层 展开 ， 这 样 就 
使 得 前 馈 神 经 网 络 的 静态 网 络 转化 为 动态 网 络 。 





6.5 ”循环 神经 网 络 发 展 


循环 神经 网 络 的 发 展 如 图 6-15 所 示 。 


Simple RNN 






增强 隐藏 
层 的 功能 





两 者 结合 
Vanilla RNN DBLSTM 


Bidirectional RNN 
Reep Bidirectional RNN 


图 6-15 


双向 化 及 
加 深 网 络 





最 初 Vanilla RNN 的 改进 和 CNN 的 改进 类 似 ， 也 是 朝 着 两 个 方向 演 
化 : 一 是 隐藏 层 的 功能 逐渐 增强 ， 二 是 网 络 的 双 辐 化 及 加 深 。 本 节 内 容 
参考 《Recurrent Neural Networks, Part 1-Introduction 


to RNNs) Ul, 


6.5.4 增强 隐藏 层 的 功能 


1. 简单 RNN 





简单 RNN (Simple RNN, SRNN) 是 一 个 3 层 网 络 ， 在 隐藏 层 (也 
叫 上 下 文 层 ) 增加 了 上 下 文 单元 。 图 6-16 中 的 CONTEXT(t ) 是 隐藏 层 ， 
CONTEXT(t -1) 是 上 下 文 单元 。 上 下 文 单元 节点 与 隐藏 层 中 的 节点 的 连 
接 及 权 值 都 是 固定 的 。 


INPUT(/) OUTPUT(?) 


CONTEXT(t) 


CONTEXT(t-1) 


图 6-16 


如 图 6-16 所 示 ， 假 设 当前 是 t 时 刻 ， 则 分 3 步 来 预测 P (w,, ): 


e 单词 w 1 映射 到 词 同 量 ， ae 

。 连接 上 一 次 训练 的 隐藏 层 CONTEXT(t -DJ)， 通 过 sigmoid 激 活 函 数 生 
成 当前 ! 时 刻 的 CONTEXT(t); 

。 利 用 softmax 函 数 ， 预 测 P (w，)。 


2. LSTM 











RNN K GE SHA FAK, ARE, BIR A Pee 
梯度 消失 或 者 梯度 爆炸 问题 。 a on 
了 连 乘 ， 造 成 梯度 指数 级 消失 。 通 过 引入 单元 (cell) 结构 ， 得 到 了 
RNN 的 改进 模型 长 短期 记忆 A Term Memory, LSTM) f 

型 ， 这 个 模型 可 以 解决 梯度 消失 的 问题 ， 如 图 6-17 所 示 。 





可 以 看 出 ， 把 图 6-14 中 RNN 隐 藏 层 中 的 黑 圆 图 换 成 图 6-17 里 LSTM 
中 的 Block， 束 得 到 LSTM 模 型 了 。 这 个 Block 里 面 主要 有 1 个 单元 
(cell) ，3 个 门 〈gate) 。 


图 6-17 118] 


e 单元 (cell) : 主要 有 一 个 状态 参数 ， 用 来 记录 状态 。 

。 输 入门 Cinput gate) 和 输出 门 Coutput gate) : 对 参数 的 输入 、 输 
出 进行 处 理 。 

e 忘记 门 (forget gate) : 用 来 设置 选择 性 遗志 的 权重 ， 原 始 RNN 在 
这 里 权重 是 1。 


3. GRU 


GRU |'9! (Gated Recurrent Unit Recurrent Neural Network) 中 在 隐 
yz: EAS EE A Ab SY EP a] 29 B EI 8 SAAS 2 JST], XR Ce 
的 影响 越 小 。 在 每 个 前 面 的 状态 对 当前 的 隐藏 层 的 状态 的 影响 上 进行 了 
距离 加 权 ， 上 距离 越 远 权 值 越 小 。 同 时 ， 在 发 生 误差 时 ， 仅 仅 对 产生 误差 
的 对 应 单词 的 权重 进行 更 新 。 











如 图 6-18 所 示 ，GRU 的 思想 和 LSTM 的 十 分 相似 。GRU 有 两 个 门 ， 
即 重 置 门 r 和 更 新 门 z 。 重 置 门 决定 如 何 组 合 新 输入 和 之 前 的 记忆 ， 更 
新 门 决定 留 下 多 少 之 前 的 记忆 。 如 果 把 重 置 门 都 设 为 1， 更 新 门 都 设 为 
0， 就 得 到 普通 的 RNN 模 型 。 





图 6-18 
4. CW-RNN P’ 


CW-RNN (Clockwork RNN) 是 一 种 使 用 时 钟 频率 驱动 的 RNN。 它 
将 隐藏 层 分 为 几 个 组 ， 通 过 不 同 的 隐藏 层 组 工作 在 不 同 的 时 钟 频率 下 来 
解决 长 时 间 依 赖 问题 。 每 一 组 按照 自己 规定 的 时 钟 频率 对 输入 进行 处 
理 。 将 时 钟 时间 离 散 化 ， 不 同 的 时 间 点 不 同 的 隐藏 层 组 工作 ， 所 有 的 隐 
藏 层 组 在 每 一 步 不 会 都 同时 工作 ， 这 样 就 加 快 网 络 的 训练 。 此 外 ， 时 钟 
周期 大 的 组 的 神经 元 速度 慢 ， 周 期 小 的 速度 快 ， 连 接 方向 是 周期 大 的 连 
接 到 周期 小 的 ， 周 期 小 的 不 会 连接 到 周期 大 的 。CW-RNN 的 结构 图 如 图 
6-19 上 所 示 。 














E. 
 E——P"» 






j^ 
N 














FJ 


j 






如 图 6-19 所 示 ， 隐 藏 层 中 的 神经 元 会 被 划分 为 在 干 个 组 ， 记 为 g ， 
每 一 组 中 的 神经 元 个 数 相同 ， 记 为 K ， 并 为 每 一 个 组 分 配 一 个 时 钟 周 
期 T; E {Ti1,T,,.…, 了 To}， 每 一 个 组 内 的 所 有 神经 元 是 全 连接 的 ， 但 是 第 
到 组 i 是 循环 连接 ， 并 需要 满足 T; AFT; 。 如 图 6-19 所 示 ， 这 些 组 按照 
时 钟 周 期 递增 从 左 到 右 进 行 排序 ， 即 T1 <T <...<Ty ， 连 接 方 同 便 是 从 
右 到 左 ， 从 速度 慢 的 组 连接 到 速度 快 的 组 。 


6.5.2” 双 同化 及 加 深 网 络 
1. 双向 RNN 


双向 RNN H (Bidirectional RNN) 假设 当前 (第 t 步 ) 的 输出 不 仅 
与 前 面 的 序列 有 关 ， 而 且 与 后 面 的 序列 有 关 。 原 始 的 双向 RNN 是 一 个 相 
对 较 简 单 的 RNN， 由 两 个 RNN 上 下 闭 加 在 一 起 组 成 。 输 出 由 这 两 个 
RNN 的 隐藏 层 的 状态 决定 ， 如 图 6-20 所 示 。 


图 6-20 


目前 的 双向 RNN 有 所 发 展 ， 例 如 ， 将 双向 的 思想 和 LSTM、GRU 结 
合 ， 变 成 双向 LSTM、 双 向 GRU 等 。 


2. 深度 双向 RNN 


RUA] 5 REUS. WEP AE TYREE OLA] RNN (Deep Bidirectional 
RNN) , Y&BOXISERNN-EXXIEIRNN2SqA, (AEE SINS SR, E 
每 一 步 的 输入 有 多 层 网 络 ， 有 更 强大 的 表达 与 学 习 能 力 ， 但 需要 更 多 的 
训练 数据 。 图 6-21 左 侧 表示 了 一 个 多 个 隐藏 层 的 RNN， 右 侧 表示 深度 
双向 LSTM (DBLSTM) 。 
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图 6-21 [221 


本 节 大 致 介绍 了 RNN 的 发 展 脉络 。 除 此 之 外 ，RNN 在 训练 的 过 程 
的 学 习 算 法 也 逐渐 丰富 ， 如 BPTT (Back Propagation Through Time) 、 
RTRL (Real-time Recurrent Learning) ~ EKF (Extended Kalman Filter) 
等 ， 读 者 可 以 自行 得 疯 相 关 资 料 进行 学 习 。 


6.6 TensorFlow Model Zoo 


TensorFlow 的 模型 都 位 于 https://github.com/tensorflow/models 。 正 如 
5.2 节 中 介绍 的 ， 这 个 目录 中 有 很 多 图 像 和 语音 处 理 的 模型 ， 可 以 直接 
拿 来 用 。 这 些 模型 的 检查 点 文件 (参考 4.8.1 节 ckpt 模 型 文件 的 保存 ) 有 
的 被 打 成 压 缩 包 ， 可 以 直接 下 载 ， 当 作 预 训练 模型 使 用 ， 如 表 6-1 所 
示 。 








[€ e 
Inception V2 inception v2 2016 08 28.tar.gz 
Inception V3 inception v3 2016 08 28.tar.gz 


Inception V4 inception v4 2016 09 09.tar.gz 


ResNet 50 resnet v1 50.tar.gz 


ResNet 101 resnet v1 101.tar.gz 





Inception-ResNet-v2 inception resnet v2.tar.gz 


ResNet 152 resnet_v1_152.tar.gz 


VGG16 vgg 16.tar.gz 





VGG19 vgg 19.tar.gz 





此 外 ， 我 们 知道 ，Caffe 因 为 开源 时 间 比 较 久 ， 有 很 多 训练 好 的 模 
型 ， 读 者 可 以 利用 它 作 为 自己 训练 项 目的 预 训练 模型 ， 大 大 地 减少 训练 
时 间 和 迭代 次 数 。Caffe 的 模型 位 于 Caffe Model Zoo 中 ， 我 们 可 以 用 工具 
23] 将 Catffe 的 模型 转换 为 TensorFlow 的 模型 。 


6.7 其 他 研究 进展 





了 解 了 CNN 和 RNN 的 发 展 ， 现 在 再 来 看 看 深度 学 习 还 有 什么 令 人 
激动 的 研究 进展 。 目 前 TensorFlow 的 拥 艳 巨 多 ， 这 些 新 的 进展 一 旦 出 
现 ， 在 开源 社区 如 GitHub 上 就 会 并 刻 有 人 将 其 实现 ， 并 且 很 多 也 会 慢 慢 
合并 到 Keras 等 第 三 方 框架 中 ， 让 开发 人 员 运 用 新 的 算法 更 加 得 心 应 
du 


6.74 ”强化 学 习 


强化 学 习 (reinforcement learning) 是 机 器 学 习 大 家 族 中 的 一 个 分 
文 ， 并 且 随 着 和 深度 神经 网 络 相 结合 ， 体 现 出 更 强大 的 特性 ， 并 且 在 
AlphaGo 的 改良 策略 网 络 (policy network) 中 ， 也 用 到 了 强化 学 习 的 方 
法 。 


强化 学 习 介 于 有 监督 学 习 和 无 监督 学 习 之 间 。 在 强化 学 习 中 ， 只 有 
很 少 的 标记 〈 交 励 ) ， 这 些 标记 还 有 延迟 。 模 型 通过 这 些 奖励 ， 不 断 学 
习 在 环境 中 的 行为 。 


强化 学 习 主 要 用 在 游戏 、 下 棋 、 博 奔 这 类 有 得 分 并 且 有 很 多 步 操作 
的 活动 中 ， 主 要 是 用 来 做 连续 决策 。 强 化 学 习 大 家 族 中 有 很 多 方法 ， 如 
Q-learning, Sarsa, Policy Gradient, Actor Critic 等 ， 一 般 包括 算法 更 新 
和 思维 决策 两 个 部 分 。 如 果 与 神经 网 络 相 结合 ， 可 以 采用 深度 Q 网 络 
(Deep Q Network, DQN) 。 目 前 也 有 很 多 使 用 Keras 的 开源 实现 ， 读 
者 可 以 自行 查找 。 

















6.7.2 ”深度 森林 


我 们 知道 ， 使 用 深度 神经 网 络 训练 模型 时 ， 首 先 需 要 大 量 的 训练 数 
据 ， 尤 其 是 很 多 标记 数据 ， 并 且 依 赖 强 大 的 计算 设施 和 超 参数 的 调节 。 
周志 华 教 授 在 其 论文 《Deep Forest: Towards An Alternative to Deep 
Neural Networks) [中 提出 了 一 种 基于 树 的 新 方法 一 一 多 粒度 级 联 森 
林 (multi-grained cascade forest, gcForest) 。gcForest 在 只 有 少量 数据 
的 情况 下 也 可 以 训练 ， 并 且 超 参数 比 深度 神经 网 络 少 得 多 ， 对 超 参 数 设 
定 来 说 性 能 健壮 性 也 很 高 ， 所 以 使 用 gcForest 训 练 起 来 很 容易 。 此 外 ， 
对 于 不 同 规 模 或 者 不 同 数 据 ， 也 能 使 用 默认 设 定 取 得 很 好 的 结 





这 为 我 们 使 用 深度 神经 网 络 之 外 的 方法 打开 了 一 司 门 。 未 来 的 深度 
学 习 中 也 许 会 出 现 更 多 神经 网 络 方向 外 的 思路 。 





6.7.3 FRESUSARA 


在 绘画 领域 ， 有 一 个 非常 著名 的 “艺术 风格 的 神经 网 络 算法 ”( 人 A 
Neural Algorithm of Artistic Style) 5! 。 这 个 算法 主要 是 进行 绘画 风格 
的 迁移 。 例 如 ， 把 楚 高 、 毕 加 索 的 绘画 风格 应 用 在 选 定 的 照 生 上。 也 惑 
是 说 ， 它 可 以 把 一 幅 图 片 的 风格 和 内 容 分 开 ， 从 而 把 A 图 片 的 风格 和 也 
图 片 的 内 容 组 合 起 来 ， 生 成 一 幅 风 格 化 的 内 容 图 片 。 在 美 图 秀 秀 、 魔 漫 
相机 、 脸 萌 等 软件 上 ， 也 有 类 似 的 玩法 。 这 个 算法 也 已 经 有 了 采用 
TensorFlow 的 开源 实现 26] 。 读 者 可 以 自己 尝试， 探究 参数 并 了 解 原 
PE. 








在 音乐 领域 ， 也 可 以 利用 深度 学 习 来 进行 创作 。 例 如 ， 用 大 量 的 
MIDI 音 频 旋律 作为 训练 数据 ， 采 用 RNN 来 生成 一 段 旋 律 ， 有 了 这 段 旋 


律 ， 束 可 以 作为 后 续 创作 的 种 子 和 灵感 ， 如 果 输 入 大 量 的 巴赫 、 由 多 
芬 、 肖 邦 的 乐曲 ， 还 可 以 模仿 他 们 的 作曲 风格 做 出 旋律 。 用 首 乐 作曲 已 
经 有 了 TensorFlow 的 开源 实现 27! 。 


扩展 到 其 他 艺术 领域 ， 我 们 知道 ， 一 个 创作 者 的 天 赋 或 者 勤奋 的 大 
量 积累 是 创作 的 灵感 来 源 ， 甚 至 有 时 候 需要 从 生活 中 的 其 他 事物 中 寻找 
灵感 。 记 得 大 张 伟 曾 经 说 过 他 的 创作 过 程 就 是 去 听 几 个 GB 的 歌 去 找 灵 
感 ， 每 月 要 去 听 几 千 首 的 歌 。 深 度 学 习 可 以 帮 你 创作 一 些 旋律 小 样 ， 硕 
望 可 以 作为 灵感 的 种 子 。 





6.8 ”小 结 


本 章 主 要 介绍 了 卷 积 神经 网 络 和 循环 神经 网 络 的 发 展 过 程 ， 描 述 了 
发 展 的 脉络 和 方向 ， 对 后 来 研究 中 设计 模型 结构 很 有 局 发 意义 。 此 外 ， 
本 章 还 介绍 了 深度 学 习 研 究 中 的 其 他 进展 ， 如 强化 学 习 、 深 度 秩 林 、 深 
度 学 习 在 音乐 和 绘画 上 的 进展 ， 都 是 目前 很 火 的 研发 方向 。 本 书 还 举例 
了 TensorFlow 对 AlexNet 的 实现 ， 以 及 TensorFlow 目 前 完善 的 预 训练 模型 
社区 TensorFlow Model Zoo， 读 者 熟练 后 ， 可 以 找到 跟 自 己 业务 模型 相 
近 的 预 训练 模型 进行 训练 。 除 此 之 外 ， 迁 移 学 习 、One Shot 学 习 、 目 标 
检测 、 视 觉 跟 踩 、 机 器 人 技术 目标 分 割 等 也 是 研究 的 热点 ， 读 者 可 以 选 
择 自己 钻研 的 行业 潜心 研究 。 
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得 荔 于 TensorFlow 社 区 的 繁荣 ， 诞 生出 许多 高 质量 的 元 框架 
(metaframework) ， 如 Keras、TFLeam、TensorLayer 等 。 使 用 元 框架 
能 够 大 大 减少 编写 TensorFlow 代 人 码 的 工作 量 ， 方 便 开 发 者 快速 搭建 网 络 
模型 ， 并 且 使 代码 简单 、 可 读 性 强 。 


本 章 我 们 主要 讲解 官方 默认 支持 的 Kerass 和 老牌 的 TFLearn 提 供 的 高 
ZY API. 


7.1 TFLearn 


TFLearmm 是 一 个 建立 在 TensorFlow 顶 部 的 模块 化 的 深度 学 习 框 架 ， 
它 为 TensorFlow 提 供 更 高 级 的 API， 以 便于 快速 实验 ， 同 时 保持 完全 透 
明和 兼容 。 


在 6.2 节 中 我 们 已 经 用 原生 的 TensorFlow 代 人 码 完 成 了 AlexNet。 读 者 
可 能 已 经 感受 到 其 代码 的 见长 ， 下 面 我 们 就 用 TFLearn 框 架 ， 看 看 如 何 
将 代码 写 得 简洁 。 Ul 


7.1.1 ”加 载 数据 


这 里 用 的 是 牛津 大 学 的 鲜花 数据 集 站 (Flower Dataset) 。 这 个 数 
据 集 提供 了 17 个 类 别 的 鲜花 数据 ， 每 个 类 别 80 张 图 片 ， 并 且 图 片 有 大 量 
的 姿态 和 光 的 变化 。 








注意 ， 在 代码 的 开始 需要 导入 用 到 的 与 卷 积 、 池 化 、 规 范 化 相关 的 
类 ， 方 法 如 下 : 





import tflearn 

from tflearn.layers.core import input_data, dropout, fully_connected 
from tflearn.layers.conv import conv 2d, max pool 2d 

from tflearn.layers.normalization import local response normalization 
from tflearn.layers.estimator import regression 


import tflearn.datasets.oxflower17 as oxflower17 
X, Y = oxflower17.load_data(one_hot=True, resize pics-(227, 227)) 


Ce 
7.1.2 ”构建 网 络 模型 


构建 AlexzNet 网 络 模型 时 ， 直 接 使 用 TFLeam 中 的 卷 积 、 池 人 化、 规范 
化 、 全 连接 、dropout 函 数 来 构建 即 可 。 方 法 如 下 : 





# 构建 AlexNet 网 络 
network = input_data(shape=[None, 227, 227, 3]) 
network = conv 2d(network, 96, 11, strides-4, activation='relu' ) 
network = max pool 2d(network, 3, strides=2) 
network = local response normalization(network) 
network = conv 2d(network, 256, 5, activation-'relu') 
network - max pool 2d(network, 3, strides-2) 
network = local response normalization(network) 
network = conv 2d(network, 384, 3, activation='relu') 
network = conv_2d(network, 384, 3, activation='relu') 
network = conv_2d(network, 256, 3, activation='relu') 
network = max pool 2d(network, 3, strides=2) 
network = local response normalization(network) 
network = fully connected(network, 4096, activation-'tanh') 
network = dropout(network, 0.5) 
network = fully connected(network, 4096, activation-'tanh') 
network = dropout(network, 0.5) 
network - fully connected(network, 17, activation-'softmax') 
network = regression(network, optimizer='momentum' , 
loss-'categorical crossentropy', 
learning rate-0.001) # 回归 操作 ， 同 时 规定 网 络 所 使 用 的 学 习 
率 、 损 失 函 数 和 优化 器 





7.4.3 ”训练 模型 


构建 完 模型 之 后 ， 就 可 以 训练 模型 了 。 这 里 我 们 加 了 一 步 ， 就 是 假 
设 有 训练 好 或 训练 到 一 半 的 AlexNet 模 型 的 检查 点 文件 ， 直 接 载 入 ， 方 


法 如 下 : 


model = tflearn.DNN(network, checkpoint path-'model alexnet', 
max checkpoints-1, tensorboard verbose-2) 

model.fit(X, Y, n epoch-1000, validation set-0.1, shuffle-True, 
show metric-True, batch size-64, snapshot step-200, 
snapshot epoch-False, run id-'alexnet oxflowers17') 











可 见 ， 代 码 简 洁 得 让 人 惊讶 。 这 就 是 第 三 方 库 的 优点 。 


7.2 Keras 


Keras 是 一 个 高 级 的 Python 神 经 网 络 框 架 ， 其 文档 详 见 
https://keras.io/ 。Keras 已 经 被 添加 到 TensorFlow 中 ， 成 为 其 默认 的 框 
架 ， 为 TensorFlow 提 供 更 高 级 的 API。 


如 果 读 者 不 想 了 解 TensorFlow 的 细节 ， 只 需要 模块 化 ， 那 么 Keras 是 
一 个 不 错 的 选择 。 如 果 将 TensorFlow 比 喻 为 编程 界 的 Java 或 C++， 那 么 
Keras 康 是 编程 界 的 Python。 它 作为 TensorFlow 的 高 层 封 狼 ， 可 以 与 
TensorFlow 联 合 使 用 ， 用 它 快速 搭建 原型 。 


另外 ，Keras 兼 容 两 种 后 端 ， 即 Theano 和 TensorFlow， 并 且 其 接口 形 
式 和 Torch 有 几 分 相像 。 掌 握 Keras 可 以 大 幅 提 升 对 开 友 效率 和 网 络 结构 
的 理解 。 


7.2.1 ”Keras 的 优点 


Keras 是 高 度 封 装 的 ， 非 常 适合 新 手 使 用 ， 代 码 更 新 速度 比较 快 ， 
示例 代码 也 比较 多 ， 文 档 和 讨论 区 也 比较 完善 。 最 重要 的 是 ，Keras 是 
TensorFlow 官 方 文 持 的 。 当 机 器 上 有 可 用 的 GPU 时 ， 代 码 会 自动 调用 
GPU 进行 并 行 计算 。 


Keras 官 方 网 站 上 描述 了 它 的 几 个 优 点 ， 有 具体 如 下 。 


。 模块 化 : 模型 的 各 个 部 分 ， 如 神经 层 、 成 本 函数 、 优 化 器 、 初 始 
化 、 激 活 函 数 、 规 范 化 都 是 独立 的 模块 ， 可 以 组 合 在 一 起 来 创建 模 
型 。 


e REX: 每 个 模块 都 保持 简短 和 简单 。 
e X HUE: 很 容易 添加 新 模块 ， 因 此 Keras 运 于 做 进一步 的 高 级 研 


IT 
e 使 用 Python 语言 : 模型 用 Python 实现 ， 非 常 易 于 调试 和 扩展 。 





72.2 ”Keras 的 模型 [3] 





Keras 的 核心 数据 结构 是 模型 。 模 型 是 用 来 组 织 网 络 层 的 方式 。 模 
型 有 两 种 ， 一 种 叫 Sequential 模 型 ， 男 一 种 叫 Model 模 型 。Sequential 模 型 
是 一 系列 网 络 层 按 顺 序 构成 的 栈 ， 是 单 输 入 和 蛙 输 出 的 ， 层 与 层 之 间 只 
有 相 令 关系， 是 最 简单 的 一 种 模型 。Model 模 型 是 用 来 建立 更 复杂 的 模 
型 的 。 














这 里 先 介 绍 简 单 的 Sequential 模 型 的 使 用 (7.2.3 节 将 会 以 一 个 示例 
来 介绍 Model 模 型 ) 。 首 先是 加 载 数 据 ， 这 里 我 们 假设 数据 已 经 加 载 完 
毕 ， 是 X_train, Y_train 和 X_test, Y_test。 然 后 构建 模型 . 


from keras.models import Sequential 

from keras.layers import Dense, Activation 
model = Sequential() 
model.add(Dense(output dim-64, input dim-100)) 
model.add(Activation("relu")) 
model.add(Dense(output dim-10)) 
model.add(Activation("softmax")) 





ia, ERE, TRIN Ha HY aK ee SAC A : 


model.compile(loss-'categorical crossentropy', optimizer-'sgd', metrics=[' 
accuracy' ]) 





最 后 ， 训 练 模型 和 评估 模型 : 


model.fit(X_train, Y_train, nb_epoch=5, batch_size=32) 
loss and metrics = model.evaluate(X test, Y test, batch size-32) 





这 就 是 一 个 最 简单 的 模型 的 使 用 。 如 果 要 搭建 复杂 的 网 络 ， 可 以 使 








用 Keras 的 Model 模 型 ， 它 能 定义 多 输出 模型 、 含 有 共享 层 的 模型 、 共 享 
视觉 模型 、 图 所 问 答 模 型 、 视 觉 问答 模型 等 。 在 Keras 的 源 代码 的 
examples 文 件 夹 里 还 有 更 多 的 例子 ， 有 兴趣 的 读者 可 以 参考 。 


7.23 ”Keras 的 使 用 





我 们 下 载 Keras 代 码 ^1 到 本 地 目录 ， 将 下 载 后 的 目录 命名 为 keras。 
Keras 源 代码 中 包含 很 多 示例 ， 例 如 : 


。CIFAR10 一 一 图 片 分 类 (使 用 CNN 和 实时 数据 )〉; 
。IMDB 一 一 电影 评论 观点 分 类 (使 用 LSTM) ; 
新 闻 主 题 分 类 (使 用 多 层 感知 器 ) ; 





e Reuters 


e MNIST 一 一 手写 数字 识别 (使 用 多 层 感 知 器 和 CNN) ; 
e OCR 一 一 识别 字符 级 文本 生成 (使 用 LSTM) 。 








这 里 我 们 主要 用 MNIST 示 例 进 行 讲解 。 后 续 在 第 13 章 中 ， 我 们 仍 会 
以 Keras 框 架 来 讲解 原理 及 代码 实现 。 


1. BR 


Keras 的 安 闭 非常 简单 ， 不 依赖 操作 系统 ， 建 议 大 家 直接 通过 pip 命 


pip install keras 





安装 完成 后 ， 需 要 选择 依赖 的 后 端 ， 在 ~/.keras/keras.json 下 修改 最 
后 一 行 backend 对 应 的 值 即 可 。 修 改 后 的 文件 如 下 : 


"image dim ordering": "tf", 
"epsilon": 1e-07, 

"floatx": "float32", 
"backend": "tensorflow" 








2. 实现 卷 积 神 经 网 络 加 


用 Keras 实 现 一 个 网 络 模型 ， 主 要 分 为 加 载 数据 、 模 型 构建 、 模 型 
编译 、 模 型 训练 、 模 型 评估 或 者 模型 预测 几 步 。 下 面 我 们 就 用 最 简单 的 
MNIST 示 例 来 看 如 何 用 Keras 实 现 一 个 卷 积 神经 网 络 (CNN) 。 





首先 ， 定 义 好 超 参 数 以 及 加 载 数据 ， 如 下 : 





batch_size = 128 
nb classes = 10 # 分 类 数 
nb_epoch = 12 # 训练 轮 数 








# 输入 图 片 的 维度 

img rows, img cols = 28, 28 
# 卷 积 滤 镜 的 个 数 

nb filters = 32 

# 最 大 池 化 ， 池 化 核 大 小 

pool size = (2, 2) 

# 卷 积 核 大 小 


kernel_size = (3, 3) 














(X train, y train), (X test, y test) = mnist.load data() 


if K.image dim ordering() == 'th': 
# 使 用 Theano 的 顺序 : (conv dimi, channels, conv dim2, conv dim3) 
X train = X train.reshape(X train.shape[0], 1, img rows, img cols) 
X test = X test.reshape(X test.shape[0], 1, img rows, img cols) 
input shape - (1, img rows, img cols) 

else: 
# 使 用 TensorFlow 的 顺序 : (conv dimi, conv dim2, conv dim3, channels) 
X train = X train.reshape(X train.shape[0], img rows, img cols, 1) 
X test = X test.reshape(X test.shape[0], img rows, img cols, 1) 
input shape - (img rows, img cols, 1) 






































X train = X train.astype('float32') 
X test - X test.astype('float32') 
X train /= 255 

X test /- 255 





# 将 类 疝 量 转换 为 二 进 制 类 矩阵 
Y train = np utils.to categorical(y train, nb classes) 
Y test - np utils.to categorical(y test, nb classes) 








下 面 来 构建 模型 ， 这 里 用 2 个 卷 积 层 、1 个 池 化 层 和 2 个 全 连接 层 来 
构建 ， 如 下 : 


model = Sequential() 


model.add(Convolution2D(nb_filters, kernel_size[@], kernel_size[1], 
border mode-'valid', 
input shape-input shape)) 
.add(Activation( 'relu')) 
.add(Convolution2D(nb filters, kernel size[0], kernel size[1])) 
.add(Activation('relu')) 
.add(MaxPooling2D(pool size-pool size)) 
.add(Dropout(0.25)) 


.add(Flatten()) 
.add(Dense(128)) 
.add(Activation('relu')) 
.add(Dropout(0.5)) 
.add(Dense(nb classes)) 
.add(Activation('softmax')) 





随后 ， 用 model.compileO 函 数 编译 模型 ， 采 用 多 分 类 的 损失 函数 ， 
用 Adadelta 算 法 做 优化 方法 ， 如 下 : 





model.compile(loss='categorical_crossentropy', 
optimizer-'adadelta', 
metrics-['accuracy']) 


然后 ， 开 始 用 modelfitO 函 数 训练 模型 ， 输 入 训练 集 和 测试 数据 ， 
以 及 batch_size 和 nb_epoch 参 数 ， 如 下 : 


model.fit(X train, Y train, batch size-batch size, nb epoch-nb epoch, 
verbose-1, validation data-(X test, Y test)) 





最 后 ， 用 model.evaluate() 函 数 来 评估 模型 ， 输 出 测试 集 的 损失 值 和 
准确 率 ， 如 下 : 
score = model.evaluate(X_test, Y_test, verbose=0) 


print('Test score:', score[0]) 
print('Test accuracy:', score[1]) 





计算 出 的 损失 值 和 准确 率 如 下 : 





Test score: 0.0327563833317 
Test accuracy: 0.9893 


pT 


eT AES te EB AERAR EDR, (EE SEN 
FLV BY EIL AIP AC, AE TC BE TET LB ZR EC, MAR 
XS ART EEE A YI EST 


3. 模型 的 加 载 及 保存 


Keras 的 save_model 和 ]load_model 方 法 可 以 将 Keras 模 型 和 权重 保存 在 
一 个 HDF5 文 件 中 ， 这 里 面包 括 模 型 的 结构 、 权 重 、 训 练 的 配置 〈 损 失 
函数 、 优 化 器 〉 等 。 如 果 训 练 因为 某 种 原因 中 止 ， 就 用 这 个 HDF5 文 件 
从 上 次 训练 的 地 方 重 新 开始 训练 。 


keras/tests 目 录 中 的 test_model_saving.py 文 件 中 给 出 了 加 载 和 保存 模 
型 的 方式 。test_model_saving.py 文 件 的 内 容 如 下 : 





from keras.models import save_model, load_model 


def test_sequential_model_saving(): 

model = Sequential() 

model.add(Dense(2, input dim-3)) 

model.add(RepeatVector(3)) 

model.add(TimeDistributed(Dense(3))) 

model.compile(loss-objectives.MSE, 
optimizer-optimizers.RMSprop(l1r-0.0001), 
metrics-[metrics.categorical accuracy], 
sample weight mode-'temporal') 

x = np.random.random((1, 3)) 

y = np.random.random((1, 3, 3)) 

model.train on batch(x, y) 


out - model.predict(x) 
_, fname = tempfile.mkstemp('.h5') # 创建 一 个 HDFS 5 文件 
save_model(model, fname) 


new_model = load_model(fname) 
os.remove(fname) 


out2 = new_model.predict(x) 
assert allclose(out, out2, atol-1e-05) 


# 检测 新 保存 的 模型 和 之 前 定义 的 模型 是 否 一 致 
x = np.random.random((1, 3)) 

y = np.random.random((1, 3, 3)) 
model.train on batch(x, y) 

new model.train on batch(x, y) 

out - model.predict(x) 

out2 - new model.predict(x) 

assert allclose(out, out2, atol-1e-05) 











如 果 只 是 希望 保存 模型 的 结构 ， 而 不 包含 其 权重 及 训练 的 配置 ( 损 
失 国 数 、 优 化 器 ) ， 可 以 使 用 下 面 的 代码 将 模型 序列 化 成 json 或 者 yaml 
SAP: 


json_string = model.to_json() 
json string = model.to yaml() 





保存 完成 后 ， 还 可 以 手动 编辑 ， 并 且 使 用 如 下 语句 进行 加 载 : 





from keras.models import model_from_json 
model = model_from_json(json_string) 
model = model from yaml(yaml string) 


如 果 仅 需要 保存 模型 的 权重 ， 而 不 包含 模型 的 结构 ， 可 以 使 用 
save_weights 和 ]load_weights 语 句 来 保存 和 加 载 : 


model.save weights('my model weights.h5') 
model.load weights('my model weights.h5') 





Za ee ae 





本 章 主要 介绍 了 TensorFlow 的 高 质量 的 元 框架 Keras 和 
TFLearn。 当 读者 熟练 使 用 TensorFlow 去 构建 神经 网 络 后 ， 会 发 现 
TensorFlow 的 确 过 于 灵活 ， 且 代码 十 分 见长 。 使 用 元 框 染 提供 的 高 级 
API 能 够 可 以 极 大 地 提高 开发 效率 ， 很 容易 做 一 些 模型 实验 。 在 第 11 章 
和 第 13 章 中 都 会 用 Keras 和 TFLearn 里 的 高 级 API 来 构建 网 络 。 








n] AW 
% https://github.com/tflearn/tflearn/blob/master/examples/images/alexnet.py 


[2] http://www.robots.ox.ac.uk/~vg¢g/data/flowers/17/ 





[3] 本 节 的 示例 参考 Keras 的 官方 文档 : https://keras.io/ 。 
[4] https://github.com/fchollet/keras 


[5] ”本 市 代码 参 
考 https://github.com/fchollet/keras/blob/master/examples/mnist_cnn.py 。 


is ”实战 遍 








经 过 基础 篇 的 学 习 ， 相 信 读 者 对 TensorFlow 的 基本 概念 已 经 掌握 得 
很 好 了 ， 而 实战 是 一 个 程序 员 的 上 自我 修养 。 





俄罗斯 著名 的 戏剧 和 表演 理论 家 康 斯 坦 丁 -斯 坦 尼斯 拉夫 斯 基 在 他 
的 著作 《演员 的 自我 修养 》 里 主张 体验 ， 让 演员 和 角色 合 二 为 一 ， 这 样 
才能 把 角色 内 心 生活 的 一 切 不 可 捉摸 的 细微 变化 和 全 部 深度 ， 艺 术 地 表 
达 出 来 。 只 有 这 样 的 艺术 才能 完全 抓 住 观众 的 心 ， 使 观众 弄 明白 舞台 上 
所 发 生 的 一 切 ， 丰 富 观 众 的 内 心 的 经 验 ， 在 他 们 心中 留 下 时 间 无 法 磨灭 
的 痕迹 。 而 人 的 情感 一 定 是 依照 天 性 目 然 发 生 的 ， 是 不 经 意 间 达到 的 ， 
却 不 是 随时 能 通过 外 在 变化 (如 岂 江 、 面 部 表情 来 表达 ， 这 时 束 需 要 
表演 者 对 戏剧 角色 的 动作 行为 深入 研究 ， 然 后 描 摩 出 内 心 的 情感 特征 ， 
证 “动作 ”和 ”心理 ?相互 影响 ， 诉 发 出 天 性 ， 使 动作 的 表现 更 加 真实 。 





学 者 式 的 研究 与 学 习 表 演 有 很 大 相似 之 处 。 和 学 习 表演 的 对 象 是 剧本 
中 的 人 物 ， 将 剧本 和 角色 剖析 成 不 同 层次 的 单元 ; 这 里 研究 的 对 象 是 
TensorFlow， 最 终 和 希望 能 够 服务 于 我 们 所 做 的 工作 上 。 那 么 ， 从 哪些 方 
面 学 习 才 能 真正 掌握 它 呢 ? 基础 篇 相当 于 将 TensorFlow 齐 析 成 不 同 的 单 
元 ， 并 讲解 了 “剧本 ”( 卷 积 神经 网 络 ) 发 展 的 脉络 。 在 本 篇 中 ， 我 们 就 
要 通过 “动作 ”各 种 例子 ) 去 撕 摩 不 同 单元 是 如 何 构成 每 一 种 网 络 的 例 
子 ， 并 且 细 用 地 知道 每 个 单元 对 做 不 同 任务 的 网 络 的 影响 。 





实践 出 真知 ， 现 在 我 们 这 就 进入 实战 演练 。 


第 8 章 ”第 一 个 TensorFlow 程 序 





理解 TensorFlow 的 运行 方式 对 后 面 几 章 的 具体 实战 非常 重要 。 本 章 
束 用 一 个 简单 的 例子 来 讲解 TensorFlow 的 运行 方式 。 


8.1 TensorFlowHJiz 17 7j 3X 


TensorFlow 的 运行 方式 分 如 下 4 步 : 
(1) 加 载 数 据 及 定义 超 参数 ; 
(2) 构建 网 络 ; 

(3) 训练 模型 ; 
(4) 评估 模型 和 进行 预测 。 


下 面 我 们 以 一 个 神经 网 络 为 例 ， 讲 解 TensorFlow 的 运行 方式 。 在 这 
个 例子 中 ， 我 们 构造 一 个 满足 一 元 二 次 函数 y= ax? +b 的 原始 数据 ， 然 
后 构建 一 个 最 简单 的 神经 网 络 ， 仪 包含 一 个 输入 层 、 一 个 隐藏 层 和 一 个 
输出 层 。 通 过 TensorFlow 将 隐藏 层 和 输出 层 的 weights 和 biases 的 值 学 习 
出 来 ， 看 看 随 着 训练 次 数 的 增加 ， 损 失 值 是 不 是 不 断 在 减 小 。 











8.1.1 生成 及 加 载 数 据 


首先 来 生成 输入 数据 。 我 们 假设 最 后 要 学 习 的 方程 为 =x“<- 0.5, 
我 们 来 构造 满足 这 个 方程 的 一 堆 x 和 y ， 同 时 加 入 一 些 不 满足 方程 的 噪 
声 点 。 





import tensorflow as tf 

import numpy as np 

# 构造 满足 一 元 二 次 方程 的 函数 

x_data = np.linspace(-1,1,300)[:, np.newaxis] # 为 了 使 点 更 密 一 些 ， 我 们 构建 了 























366 个 点 ， 分 布 在 -1 到 1 区 间 ， 直 接 采 用 np 生成 等 差 数列 的 方法 ， 并 将 结果 为 398 个 点 的 一 维 
数组 ， 转 换 为 398x1 的 二 维 数组 
noise = np.random.normal(0, 0.05, x data.shape) # 加 入 一 些 噪声 点 ， 使 它 与 x_da 























ta 的 维度 一 致 ， 并 且 拟 合 为 均值 为 6、 方差 为 6.65 的 正 态 分 布 


y data = np.square(x data) - 0.5 + noise # y = x2 - 0.5 + 噪声 





接 下 来 定义 x 和 y 的 占 位 符 来 作为 将 要 输入 神经 网 络 的 变量 : 


tf.placeholder(tf.float32, [None, 1]) 
tf.placeholder(tf.float32, [None, 1]) 





8.1.2 ”构建 网 络 模型 





这 里 我 们 需要 构建 一 个 隐藏 层 和 一 个 输出 层 。 作 为 神经 网 络 中 的 
层 ， 输 入 参数 应 该 有 4 个 变量 : 输入 数据 、 输 入 数据 的 维度 、 输 出 数据 
的 维度 和 激活 函数 。 每 一 层 经 过 回 量 化 Cy = weights xx + biases) 的 处 
理 ， 并 且 经 过 激活 函数 的 非 线性 化 处 理 后 ， 最 终 得 到 输出 数据 。 











下 面 来 定义 隐藏 层 和 输出 层 ， 示 例 代 码 如 下 : 





def add layer(inputs, in size, out size, activation_function=None): 
# 构建 权重 : in_sizexout_size 大 小 的 矩阵 
weights = tf.Variable(tf.random_normal([in_size, out_size])) 
# 构建 偏 置 : 1xout_size 的 和 矩阵 
biases = tf.Variable(tf.zeros([1, out size]) + 0.1) 
# 矩阵 相 乘 
Wx_plus_b = tf.matmul(inputs, weights) + biases 
if activation_function is None: 

outputs = Wx plus b 
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else: 
outputs = activation_function(Wx_plus_b) 
return outputs # 得 到 输出 数据 
# 构建 隐藏 层 ， 假 设 隐 藏 屋 有 16 个 神经 元 
h1 = add_layer(xs, 1, 20, activation_function=tf.nn.relu) 


# 构建 输出 层 ， 假 设 输出 层 和 输入 层 一 样 ， 有 1 个 神经 元 
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prediction = add layer(hi, 20, 1, activation function=None) 











接 下 来 需要 构建 损失 函数 : 计算 输出 层 的 预测 值 和 真实 值 间 的 误 
差 ， 对 二 者 差 的 平方 求 和 再 取 平 均 ， 得 到 损失 函数 。 运 用 梯度 下 降 法 ， 
以 0.1 的 效率 最 小 化 损失 : 








# 计算 预测 值 和 真实 值 间 的 误差 

loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys - prediction), 
reduction_indices=[1])) 

train step = tf.train.GradientDescentOptimizer(@.1).minimize(loss) 























8.1.3 训练 模型 


我 们 让 TensorFlow 训 练 1000 次 ， 每 50 次 输出 训练 的 损失 值 : 





init = tf.global variables initializer() # 初始 化 所 有 变量 
sess = tf.Session() 
sess.run(init) 





for i in range(1000): # 训练 19666 次 
sess.run(train_step, feed dict-(xs: x data, ys: y_data}) 
if i % 50 == 0: # 每 56 次 打印 出 一 次 损失 值 


print(sess.run(loss, feed_dict={xs: x_data, ys: y_data})) 








输出 结果 如 下 ， 在 打印 出 的 20 次 结果 中 ， 可 以 看 出 损失 值 是 趋 于 变 
小 的 : 


.62726 

. 00609592 
. 00468114 
. 00430631 
. 004184 
.0041371 
.00411622 
. 0040998 
. 00408824 
. 00407396 
. 00405857 
. 00404454 
. 00403032 
. 00401612 


. 00399823 
. 00397677 
. 00396069 
. 0039459 

. 00392994 
. 00391947 


OOOOOOoOOOOOOOCOoOOCOCOoOCOOoOOEOF 





以 上 就 是 最 简单 的 利用 TensorFlow 的 神经 网 络 训 练 一 个 模型 的 过 
程 ， 目 标 就 是 要 训练 出 权重 值 来 使 模型 拟 合 y = x “一 0.5 的 系数 1 和 -0.5， 
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准 的 步骤 ， 接 下 来 应 该 评估 模型 ， 就 是 把 学 习 出 来 的 系数 weights、biase 
进行 前 向 传播 后 和 真 值 y = x “0.5 的 结果 系数 进行 比较 ， 根 据 相 近 程 度 
计算 准确 率 。 这 里 省 略 了 评估 过 程 。 


在 第 9 章 将 进行 对 MNIST 数 据 集 在 各 种 神经 网 络 上 的 训练 。 


8.2” 超 参数 的 设 定 


所 谓 超 参数 (hyper-parameters) ， 就 是 指 机 器 学 习 模 型 里 的 框架 
参数 。 与 权重 参数 不 同 的 是 ， 它 是 需要 手动 设 定 、 不 断 试 错 的 。 














学 习 率 dearing rate〉 是 一 个 最 常设 定 的 超 参数 。 学 习 率 设置 得 
越 大 ， 训 练 时 间 越 短 ， 速 度 越 快 ， 而 学 习 率 设置 得 越 小 ， 训 练 得 准确 
度 越 高 。 那 么 ， 如 何 确 定 一 个 比较 好 的 学 习 率 呢 ? 只 能 通过 实验 的 方 
法 。 例 如 ， 移 设置 0.01， 观 察 损 失 值 的 变化 ， 然 后 答 试 0.001、0.0001， 
最 终 确 定 一 个 比较 合适 的 学 习 率 。 





我 们 也 可 以 设置 可 变 的 学 习 率 。 那 么 ， 怎 样 才 算 是 准确 率 不 再 提 
高 ， 应 该 停止 训练 了 呢 ? 例如 ， 在 训练 过 程 中 记录 最 佳 的 准确 率 ， 在 连 
续 m 轮 Cepoch) 没 达到 最 佳 的 准确 率 时 ， 便 可 以 认为 准确 率 不 再 提高 ， 
就 可 以 停止 训练 ， 称 为 “early stopping”， 这 个 策略 叫 作 “no- 
improvement-in-n” 规 则 例如， 我 们 设置 连续 10 轮 准确 率 不 再 变动 ， 束 
认为 不 再 提高 )。 此 时 ， 让 学 习 率 减 半 ; 下 一 次 满足 时 ， 再 让 学 习 率 减 
半 。 这 样 ， 在 逐渐 解决 最 优 解 时 ， 我 们 的 学 习 率 越 来 越 小， 准确 度 就 越 

















mini-batch 大 小 是 力 一 个 最 常设 定 的 超 参 数 。 每 批 大 小 决定 了 权重 
的 更 新 规则 。 例 如 ， 大 小 为 32 时 ， 就 是 把 32 个 样本 的 梯度 全 部 计算 完 ， 
然后 求 平 均值 ， 去 更 新 权重 。 批 次 越 大 训练 的 速度 越 快 ， 可 以 利用 甜 
阵 、 线 性 代数 库 来 加 速 ， 但 是 权重 更 新 频率 略 低 。 批 次 越 小 训练 的 速度 
就 慢 。 那 么 ， 如 何 选择 批 次 大 小 呢 ? 也 需要 结合 机 器 的 人 硬件 性 能 以 及 数 





据 集 的 大 小 来 设 定 。 


正则 项 系数 (regularization parameter, A) 是 另 一 个 常用 的 超 参 
数 。 但 是 ， 设 定 没有 太 多 可 遵循 的 规则 ， 一 般 赁 经 验 。 一 般 来 说 ， 如 采 
在 较 复杂 的 网 络 发 现 出 现 了 明显 的 过 拟 合 (在 训练 数据 准确 率 很 高 但 测 
试 数据 准确 率 反 而 下 降 ) ， 可 以 考虑 增加 此 项 。 初 学 者 可 以 一 开始 设置 
为 0， 然 后 确定 好 一 个 比较 好 的 学 习 率 后 ， 再 给 和 一 个 值 ， 随 后 根据 准确 
率 再 进行 精细 调整 。 
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本 章 主 要 介绍 了 如 何 用 TensorFlow 构 建 一 个 神经 网 络 。 构 建 神 经 网 
络 主要 分 为 4 个 步骤 : 构造 数据 、 构 建 网 络 、 训 练 模型 、 评 估 及 预测 模 
型 。 此 外 ， 还 介绍 了 一 些 超 参 数 设 定 的 经 验 和 技巧 。 


"593: ”TensorFlow 在 MNIST 中 的 应 用 


MNIST !!! (Mixed National Institute of Standards and Technology? 
是 一 个 入 门 级 的 计算 机 视觉 数据 集 ， 数 据 集中 都 是 美国 中 学 生 手写 的 数 
字 。 它 的 训练 集 包 含 6 万 张 图 片 ， 测 试 集 包 含 1 万 张 图 片 ， 并 且 数 字 已 经 
进行 过 预 处 理 和 格式 化 ， 做 了 大 小 调整 并 居中 ， 图 片 尺寸 也 固定 为 
28x28。 这 个 数据 集 很 小 ， 但 训练 速度 很 快 ， 而 且 收 敛 效 果 也 很 好 ， 非 


常 适 合作 为 实战 的 例子 去 学 习 。 


接 下 来 我 们 就 以 MNIST 数 据 集 为 例 ， 尝 尽 TensorFlow 在 深度 学 习 中 
的 各 种 应 用 。 


9.1 _ MNISI 数 据 集 简介 


MNIST 数 据 集 是 NIST 数 据 集 的 子 集 ， 包 合 以 下 4 个 文件 。 


e train-labels-idx1-ubyte.gz: 训练 集 标记 文件 (2888157 8) 。 

e train-images-idx3-ubyte.gz: 训练 集 图 片 文 件 (9912 422 FT) 。 
e t10k-labels-idx1-ubyte.gz: 测试 集 标 记 文 件 (4 542 字 节 ) 。 

e t10k-images-idx3-ubyte.gz: 测试 集 图 片 文件 (1 648 877 字 节 ) 。 


MNIST 数 据 集 包 括 训练 集 的 图 片 和 标记 数据 ， 以 及 测试 集 的 图 片 和 
标记 数据 ， 在 测试 集 包 含 的 10 000 个 样 例 中 ， 前 5 000 个 样 例 取 自 原始 的 
NIST 训 练 集 ， 后 5 000 个 取 自 原始 的 NIST 测 试 集 ， 因 此 前 5 000 个 预测 起 
来 更 容易 些 。 


下 面具 体 讲解 它们 的 格式 PI, 
9.1.1 训练 集 的 标记 文件 


训练 集 标记 文件 train-labels-idx1-ubyt 的 格式 如 下 : 





[offset] [type] [value] [description] 

0000 32 bit integer  0x00000801(2049) magic number (MSB first) 
0004 32 bit integer 60000 number of items 

0008 unsigned byte ?? label 

0009 unsigned byte ?? label 


XXXX unsigned byte ?? label 
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其 中 ，MSB (most significant bit， 最 高 有 效 位 ) ， 在 二 进 制 数 中 ， 
MSB 是 最 高 加 权 位 ， 与 十 进 制 数字 中 最 左边 的 一 位 类 似 SI。 通常 ， 
MSB 位 于 二 进 制 数 的 最 左 侧 。MSB first 指 的 是 最 高 有 效 位 在 前 。 








这 里 magic number 是 指 写 入 ELF 格 式 (Executable and Linkable 
Format〉 的 ELF 头 文件 中 的 和 常量， 检查 这 个 数 和 自己 设 定 的 是 否 一 致 能 
够 判断 出 文件 是 否 损坏 


9.1.2 ”训练 集 的 图 片 文件 
训练 集 的 图 片 文件 train-images-idx3-ubyte 的 格式 如 下 : 








[offset] [type] [value] [description] 
0000 32 bit integer  0x00000803(2051) magic number 
32 bit integer number of images 
32 bit integer number of rows 
32 bit integer number of columns 
unsigned byte ?? pixel 
unsigned byte ?? pixel 


unsigned byte ?? pixel 





pixel (像素 ) 的 取 值 范 围 是 0-255，0-255 代 表 背 景色 (Af) , 255 
代表 前 景色 (黑色 ) 。 


9.1.3 测试 集 的 标记 文件 


测试 集 的 标记 文件 tLOk-labels-idx1-ubyte 的 格式 如 下 : 


[offset] [type] [value] [description] 
32 bit integer  0x00000801(2049) magic number (MSB first) 
32 bit integer 10000 number of items 
unsigned byte >? label 
unsigned byte ?? label 


unsigned byte ?? label 





9.1.4. 测试 集 的 图 所 文件 
测试 集 的 图 片 文件 t10k-labels-idx1-ubyte 的 格式 如 下 : 


[offset] [type] [value] [description] 
0000 32 bit integer  0x00000803(2051) magic number 
32 bit integer 10000 number of images 
32 bit integer 28 number of rows 
32 bit integer number of columns 
unsigned byte ?? pixel 
unsigned byte Py pixel 


unsigned byte ? ? pixel 
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来 探讨 这 些 方法 。 讨 论 这 些 方法 有 助 于 大 家 了 解 神 经 网 络 的 基本 设计 思 
想 和 TensorFlow 的 工作 流程 。 这 些 方法 的 代码 位 于 tensorflow- 





1.1.0/tensorflow/examples/tutorials/mnist/ F . 


e mnist softmax.py: MNIST 采 用 Softmax 回 归 训 练 。 

e fully connected feed.py: MNIST 采 用 Feed 数 据 方式 训练 。 

e mnist with summaries.py: MNIST 使 用 卷 积 神经 网 络 CCNN , 3f 
且 训 练 过 程 可 视 化 。 

e mnist softmax xla.py.py: MNIST 使 用 XLA 框 架 (参见 第 15 章 )。 


我 们 先 从 一 个 简单 的 Softmax 回 归 模 型 开始 。 


9.2 ”MNIST 的 分 类 问题 


Softmax 回 归 可 以 解决 两 种 以 上 的 分 类 ， 该 模型 是 Logistic 回 归 模 型 
在 分 类 问题 上 的 推广 。 对 于 要 识别 0 一 9 这 10 类 数字 ， 首 选 Softmax 回 
归 。MNIST 的 Softmax 回 归 源 代码 位 于 tensorflow- 


1.1.0/tensorflow/examples/tutorials/mnist/mnist_softmax.py。 


9.2.1 ”加 载 数 据 


我 们 需要 导入 input_data.py 文 件 ， 使 用 tensorflow.contrib.learn 中 的 
read_data_sets 来 加 载 数 据 ， 代 码 如 下 : 


from tensorflow.examples.tutorials.mnist import input data 
import tensorflow as tf 

# 加 载 数 据 
mnist = input data.read data sets(FLAGS.data dir, one hot=True) 








其 中 ，FLAGS.data_dir 是 MNIST 所 在 的 路 径 ， 用 户 可 以 自己 指定 ; 
one_hot 标 记 则 是 指 一 个 长 度 为 n 的 数组 ， 只 有 一 个 元 素 是 1.0， 其 他 元 素 
是 0.0〈 例 如 ， 在 n 为 4 的 情况 下 ， 标 记 2 对 应 的 one_hot 标 记 就 是 0.0 0.0 
1.0 0.0) 。 





使 用 one_hot 的 直接 原因 是 ， 我 们 使 用 0 一 9 个 类 别 的 多 分 类 的 输出 
层 是 softmax 层 ， 它 的 输出 是 一 个 概率 分 布 ， 从 而 要 求 输入 的 标记 也 以 


BLA AHF BL, ET nI DATES SOR. 
9.2.2 ”构建 回归 模型 


构建 回归 模型 ， 我 们 需要 输入 原始 真实 值 Cgroup truth). ， 计 算 采 
用 softmax 函 数 拟 合 后 的 预测 值 ， 并 且 定 义 损 失 函 数 和 优化 器 : 


定义 回归 模型 
tf.placeholder(tf.float32, [None, 784]) 
tf.Variable(tf.zeros([784, 10])) 
tf.Variable(tf.zeros([10])) 
tf.matmul(x, W) + b # 预测 值 











在 这 里 ， 我 们 要 求 TensorFlow 用 梯度 下 降 算 法 以 0.5 的 学 习 率 最 小 化 
交叉 烂 。 在 这 里 也 可 以 采用 其 他 优化 器 ， 只 需要 调整 
tf.train.GradientDescentOptimizer El! PJ 。 





# 定义 损失 函数 和 优化 器 
y = tf.placeholder(tf.float32, [None, 10]) # 输入 的 真实 值 的 占 位 符 























# 我 们 用 tf.nn.softmax_cross_entropy with logits 来 计算 预测 值 y 与 真实 值 y_ He 
值 ， 并 取 均 值 
cross entropy = tf.reduce mean(tf.nn.softmax cross entropy with logits(y 


> y 2) 
# 采用 SGD 作 为 优化 器 


train step = tf.train.GradientDescentOptimizer(0.5).minimize(cross entro 
py) 
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9.2.3 ”训练 模型 


已 经 设置 好 了 模型 ， 在 训练 之 前 ， 需 要 先 初 始 化 我 们 创建 的 变量 ， 
以 及 在 会 话 中 局 动 模型 。 




















# 这 里 使 用 InteractiveSession( ) 来 创建 交互 式 上 下 文 的 TensorFlow 会 话 
# 与 常规 会 话 不 同 的 是 ， 交 互 式 会 话 会 成 为 默认 会 话 
# 方 法 〈 如 tf.Tensor.eval 和 tf.0peration.run) 都 可 以 使 用 该 会 话 来 运行 操作 COP) 
sess = tf.InteractiveSession() 

tf.global variables initializer().run() 
































我 们 让 模型 循环 训练 1000 次 ， 在 每 次 循环 中 我 们 都 随机 抓 取 训练 数 
据 中 100 个 数据 点 ， 来 蔡 换 之 前 的 占 位 符 。 


# Train 

for _ in range(1000): 
batch xs, batch ys = mnist.train.next batch(100) 
sess.run(train step, feed dict-(x: batch xs, y : batch ys}) 





这 种 训练 方式 称 为 随机 训练 (stochastic training? ， 使 用 SGD 方 法 
进行 梯度 下 降 ， 也 惑 是 每 次 从 训练 数据 集中 随机 抓 取 一 小 部 分 数据 进行 





梯度 下 降 训 练 。 正 如 我 们 在 4.7.5 节 中 讲 到 的 ， 与 每 次 对 所 有 训练 数据 进 


行 计算 的 BGD 相 比 ，SGD 既 能 够 学 习 到 数据 集 的 总 体 特征 ， 又 能 够 加 速 
训练 过 程 。 


模型 训练 好 了 之 后 ， 如 何 来 评估 模型 的 性 能 呢 ? 
9.2.4 评估 模型 


tf.argmax(y,1) 返 回 的 是 模型 对 任 一 输入 x 预测 到 的 标记 值 ， 
tf.argmax(y_,1) 代 表 正 确 的 标记 值 。 我 们 用 tf.equal 来 检测 预测 值 和 真实 
值 是 否 罗 配 ， 并 且 将 预测 后 得 到 的 布尔 值 转化 成 浮 点 数 ， 并 取 平 均值 。 
代码 如 下 : 





8 评估 训练 好 的 模型 

correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) # 计算 
预测 值 和 真实 值 

accuracy = tf.reduce mean(tf.cast(correct prediction, tf.float32)) # fī 
尔 型 转化 为 浮 点 数 ， 并 取 平 均值 ， 得 到 准确 率 
# 计算 模型 在 测试 集 上 的 准确 率 


print(sess.run(accuracy, feed dict={x: mnist.test.images, 


















































y_: mnist.test.labels})) 





评估 模型 输出 的 结果 为 : 


0.9179 


也 就 是 说 ， 最 终 的 准确 率 是 91.7%。 接 下 来 我 们 用 卷 积 神经 网 络 
(CNN) 模型 ， 配 合 TensorBoard 可 视 化 工具 ， 直 观 地 看 看 在 训练 过 程 
中 都 发 生 了 什么 ， 以 及 能 不 能 得 到 更 高 的 准确 率 。 





9.3 训练 过 程 的 可 视 化 


TensorFlow 为 我 们 提供 了 现成 的 神经 网 络 的 可 视 化 例子 。 下 面 我 们 
就 以 MNIST 为 例 ， 看 看 训练 过 程 中 究竟 发 生 了 什么 。 源 代码 详 见 
tensorflow-1.1.0/tensorflow/examples/tutorials/mnist/mnist_ 


with_summaries.py - 


我 们 知道 ， 采 用 TensorBoard 可 视 化 的 原理 在 于 ， 在 训练 的 过 程 
中 ， 记 录 下 结构 化 的 数据 ， 然 后 运行 一 个 本 地 服务 器 ， 监 听 6006 端 口 。 
当 在 浏览 器 中 请 求 页 面 时 ， 分 析 记 录 的 数据 ， 绘 制 成 统计 图 表 及 计算 图 
展示 出 来 。 





我 们 先 直 接 运 行 脚 本 ， 看 会 有 哪些 结 


python mnist_with_summaries. 





得 到 的 命令 行 输出 如 下 : 





Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes. 
Extracting /tmp/tensorflow/mnist/input data/train-images-idx3-ubyte.gz 
Successfully downloaded train-labels-idx1-ubyte.gz 28881 bytes. 
Extracting /tmp/tensorflow/mnist/input data/train-labels-idx1-ubyte.gz 
Successfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes. 
Extracting /tmp/tensorflow/mnist/input data/ti10k-images-idx3-ubyte.gz 
Successfully downloaded t10k-labels-idx1-ubyte.gz 4542 bytes. 
Extracting /tmp/tensorflow/mnist/input data/ti10k-labels-idx1-ubyte.gz 
Accuracy at step 0: 0.1168 


Accuracy at step 10: 0.6744 
Accuracy at step 20: 0.803 

Accuracy at step 30: 0.8496 
Accuracy at step 40: 0.8822 
Accuracy at step 50: 0.8857 
Accuracy at step 60: 0.8897 
Accuracy at step 70: 0.8883 
Accuracy at step 80: 0.8884 


Accuracy at step 90: 0.8974 
Adding run metadata for 99 
Accuracy at step 100: 0.9062 
# 此 处 有 和 省略 

Adding run metadata for 899 





Accuracy at step 900: 0.9643 
Accuracy at step 910: 0.9665 
Accuracy at step 920: 0.9662 
Accuracy at step 930: 0.9678 
Accuracy at step 940: 0.966 
Accuracy at step 950: 0.9685 
Accuracy at step 960: 0.9687 
Accuracy at step 970: 0.9686 
Accuracy at step 980: 0.9651 
Accuracy at step 990: 0.9665 


Adding run metadata for 999 





这 个 例子 会 把 它 练 过 程 中 的 数据 存储 在 /tmp/tensorflow/mnist 目录 
中 ， 这 个 路 径 可 以 通过 命令 行 参 数 --log_dir 指 定 。 
d an 云 行 tree 命 令 ， 结 果 如 下 : 





ut_data # 存放 训练 数据 
t10k-images-idx3-ubyte.gz 
t10k-labels-idx1-ubyte.gz 
train-images-idx3-ubyte.gz 
train-labels-idx1-ubyte. gz 
s # 训练 结果 日 志 
mnist_with_summaries 


— test s 测试 集结 果 日 志 


"o 


— in 
|| = 
a us 
| us 
| = 
lo 


lo 





[à 








L— events.out.tfevents. 1484255500. baidudeMacBook-Pro. local 











L— train st 训练 集结 果 日 志 
L— events.out.tfevents.1484255499.baidudeMacBook-Pro.1local 








运行 tensorboard 命 令 ， 打 开 浏 览 器 ， 查 看 训练 的 可 视 化 结果 。 此 
时 ， 需 要 加 上 参数 logdir， 标 明日 志文 件 的 存储 路 径 ， 方 法 如 下 : 


tensorboard --logdir=/tmp/tensorflow/mnist/logs/mnist_with_summaries 





而 这 个 路 径 是 在 创建 摘要 的 文件 写 入 符 (FileWriter〉 时 指定 的 ， 如 





# sess.graph 是 图 的 定义 ; 本 人 句 的 含义 是 使 图 可 视 化 
file writer = tf.summary.FileWriter('/path/to/logs', sess.graph) 








输出 结果 如 下 : 





Starting TensorBoard 39 on port 6006 
(You can navigate to http://192.168.0.101:6006) 


在 浏览 器 中 打开 http://192.168.0.101:6006 就 进入 了 可 视 化 的 操作 界 
面 ， 如 图 9-1 所 示 。 


TensorBoard 





Write a regex to create atag group DC accuracy 1 





[C Split on underscores cross entropy 1 


上 器 Data download links opon 
Tooltip sorting method: default layer1 
layer2 
Smoothing 
— M— 0.6 





Horizontal Axis 
EE v WALL 


Runs 
Write a regex to filter runs 
© test 0 


TOGGLE ALL RUNS 





图 9-1 
接 下 来 就 可 以 进入 各 个 面板 查看 数据 流 图 和 直方 图 了 ， 这 部 分 内 容 
请 参考 3.2 节 中 关于 TersorBoard 可 视 化 面板 的 介绍 。 


我 们 曾 在 4.4.2 节 讲解 过 与 可 视 化 实现 相关 的 API， 这 里 我 们 就 用 本 
节 的 例子 来 具体 看 看 如 何 实现 可 视 化 。 








从 图 9-1 可 以 看 出 ， 给 一 个 张 量 添加 多 个 摘要 描述 的 函数 为 


variable summaries, 4 F: 


def variable summaries(var): 
"" 对 一 个 张 量 添加 多 个 摘要 描述 """ 
with tf.name scope('summaries'): 
mean = tf.reduce mean(var) 
tf.summary.scalar('mean', mean) # 均值 
with tf.name scope('stddev'): 
stddev = tf.sqrt(tf.reduce mean(tf.square(var - mean))) 
tf.summary.scalar('stddev', stddev) # 标准 差 
tf.summary.scalar('max', tf.reduce max(var)) # 最 大 值 
tf.summary.scalar('min', tf.reduce min(var)) # 最 小 值 
tf.summary.histogram('histogram', var) 























绘制 出 的 每 一 层 的 均值 、 标 准 差 、 最 大 值 和 最 小 值 在 
SCALARS 面 板 中 ， 如 图 9-2 所 示 。 











e a regex to x racy 1 
C Split on underscores cross -enkopy 1 
[ Data download links dropout 
Tooltip sorting method: default layer 
layerl/biases/summaries/max d 
Smoothing —* 
0.160 md 
——————9 0 BT aa 
0.140 Li 
0.120 
Horizontal Axis un 
0.100 
zs erl/weights/ nares/max layer 1/weights/summaries/mean 
20 4 
Runs a 
ut 
B O test / 
E O train 
0.00@200.0400.0500.0800.0.000k 0 0 





IM 
IM 
IM 


图 9-2 


在 构建 网 络 模型 的 过 程 中 ， 对 weights 和 biases 均 调用 
variable_summaries， 并 对 每 一 层 采 用 tf.summary.histogram 绘 制 张 量 经 过 
激活 函数 前 后 的 变化 。 


def nn_layer(input_tensor, input_dim, output_dim, layer_name, act=tf.nn. 
relu): 
# 为 确保 计算 图 中 各 个 层 的 分 组 ， 给 每 一 层 添 加 一 个 name_scope 
with tf.name_scope(layer_name): 
with tf.name scope('weights'): 
weights - weight variable([input dim, output dim]) 
variable summaries(weights) 
with tf.name scope('biases'): 
biases - bias variable([output dim]) 
variable summaries(biases) 
with tf.name scope('Wx plus b'): 
preactivate = tf.matmul(input tensor, weights) + biases 
tf.summary.histogram('pre activations', preactivate) # 激活 前 的 直方 











activations = act(preactivate, name='activation' ) 
tf.summary.histogram('activations', activations) # 激活 后 的 直方 图 
return activations 




















绘制 出 的 图 形 在 HISTOGRAMS 面 板 中 ， 如 图 9-3 所 示 。 





绘制 准确 率 和 交 文 烂 采用 的 方法 为 : 


tf.summary.scalar('cross entropy', cross entropy) 
tf.summary.scalar('accuracy', accuracy) 





绘制 出 的 图 形 在 SCALARS 面 板 中 ， 如 图 9-4 所 示 。 
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Write a regex to create a tag group x accuracy 1 
[| Split on underscores accuracy_1 
[| Data download links aol 
Tooltip sorting method: default X 0.700 | 
0.400 -| 
Smoothing 0.100 | 
— | 06 100.0 400.0 700.0 
uS 
Horizontal Axis 
cross entropy 1 
STEP RELATIVE WALL 
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Runs | 
3.00 + 
Write a regex to filter runs 200 | 


S eiua 100 | 
O train 





0.00 -一 ; 


TOGGLEALL RUNS 100.0 400.0 700.0 


图 9-4 





读者 可 以 目 行 探索 更 多 的 可 视 化 组 合 方法 ， 充 分 利用 好 
TensorBoard 工 具 。 我 们 接 下 来 就 讲解 CNN 在 TensorFlow 上 如 何 构建 。 


9.4 ”MNIST 的 卷 积 神经 网 络 Hl 


本 节 我 们 将 学 习 用 TensorFlow 搭 建 一 个 卷 积 神经 网 络 (CNN) P 
型 ， 并 用 它 来 训练 MNIST 数 据 集 。 


同样 ， 构 建 的 流程 也 是 先 加 载 数据 ， 再 构建 网 络 模型 ， 最 后 训练 和 
评估 模型 。 


9.4.1 加 载 数据 
先导 入 必要 的 库 ， 如 下 : 


import tensorflow as tf 
import numpy as np 
from tensorflow.examples.tutorials.mnist import input_data 





ix —H Al E-—AMNISTRS [BI VARA THIS], MAAR. 
9.4.2 ”构建 模型 
构建 一 个 CNN 模 型 ， 需 要 以 下 几 步 。 


CD 定义 输入 数据 并 预 处 理 数据 。 这 里 ， 我 们 首先 读 取 数据 
MNIST， 并 分 别 得 到 训练 集 的 图 片 和 标记 的 矩阵 ， 以 及 测试 集 的 图 片 和 
标记 的 和 矩阵。 代码 如 下 : 


import tensorflow as tf 
import numpy as np 
from tensorflow.examples.tutorials.mnist import input_data 


mnist = input data.read data sets("MNIST data/", one hot-True) 
trX, trY, teX, teY - mnist.train.images, mnist.train.labels, mnist.test.im 
ages, mnist.test.labels 





其 中 ，mnist 是 TensorFlow 的 tensorflow.contrib.learn 中 的 Datasets， 其 


值 如 下 : 


Datasets(train-«tensorflow.contrib.learn.python.learn.datasets.mnist.DataS 
et object at 0x110987cd0», validation-«tensorflow.contrib.learn.python.lea 
rn.datasets. mnist.DataSet object at 0x110987d10», test=<tensorflow.contri 
b.learn.python.learn. datasets.mnist.DataSet object at 0x110987d50») 








tX、trY,、teX、teY 是 数据 的 矩阵 表现 ， 其 值 类 似 于 : 





[[ 6. e. e. , 0. 06. 0.] 
[ 6. 0. e. , 0. 06. 0.] 
[6. 0. e. , 0. 0. 0.] 


` 


Oa. ee 
GGG 
G 
G 
Ne 
G 
G 
G 
LI LL 


接着 ， 需 要 处 理 输入 的 数据 ， 把 上 述 tX 和 teX 的 形状 变 为 
[-1,28,28,1]，-1 表 示 不 考虑 输入 图 乒 的 数量 ，28x28 是 图 片 的 长 和 宽 的 像 
ied 1 是 通道 (channel) as uc EMITE 所 以 通 

道 是 1， 如 果 是 RGB 彩色 图 像 ， 


trX = trX.reshape(-1, 28, 28, 1) # 28x28x1 input img 
teX = teX.reshape(-1, 28, 28, 1) # 28x28x1 input img 


f.placeholder("float", [None, 28, 28, 1]) 
f.placeholder("float", [None, 10]) 





(20 初始 化 权重 与 定义 网 络 结构 。 这 里 ， 我 们 将 要 构建 一 个 拥有 3 
个 卷 积 层 和 3 个 池 化 层 ， 随 后 接 1 个 全 连接 层 和 1 个 输出 层 的 卷 积 神经 网 
络 。 首 先 定义 初始 化 权重 的 函数 : 


def init_weights(shape): 
return tf.Variable(tf.random_normal(shape, stddev-0.01)) 





初始 化 权重 方法 如 下 ， 我 们 设置 卷 积 核 的 大 小 为 3x3: 


init_weights([3, 3, 1, 32]) # patch 大 小 为 3x3， 输 入 维度 为 1， 输 
E 度 为 32 
= init_weights([3, 3, 32, 64]) # patch 大 小 为 3x3， 输 入 维度 为 32， 
ERE N64 
init_weights([3, 3, 64, 128]) # patch 大 小 为 3x3， 输 入 维度 为 64， 
FEE 73128 

init weights([128 * 4 * 4, 625]) 全 连接 层 ， 输 入 维度 为 128 x 4 x 4 
是 上 一 层 的 输出 数据 又 三 维 的 转变 成 一 维 ， 输出 维度 为 625 

wo = init weights([625, 10]) # 输出 层 ， 输 入 维度 为 625， 输 出 维度 为 186， 代 表 16 
类 (1abels) 











































































































随后 ， 定 义 一 个 模型 函数 ， 代 码 如 下 : 








# 神经 网 络 模型 的 构建 函数 ， 传 入 以 下 参数 
# X: 输入 数据 
# w: 每 一 层 的 权重 
# p keep conv. p keep hidden: dropout 要 保留 的 神经 元 比例 








def model(X, w, w2, w3, w4, w_o, p keep conv, p keep hidden): 

# 第 一 组 卷 积 层 及 池 化 层 ， 最 后 dropout 一 些 神经 元 

lla = tf.nn.relu(tf.nn.conv2d(X, w, strides-[1, 1, 1, 1], padding='SAME' 
)) 

# 11a shape=(?, 28, 28, 32) 

11 = tf.nn.max pool(l1a, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], paddi 
ng-'SAME') 

# 11 shape=(?, 14, 14, 32) 

11 = tf.nn.dropout(11, p keep conv) 




















ANS 





# 第 二 组 卷 积 层 及 池 化 层 ， 最 后 dropout 一 些 神经 元 

12a = tf.nn.relu(tf.nn.conv2d(11, w2, strides=[1, 1, 1, 1], padding='SAM 
E')) 

# 12a shape-(?, 14, 14, 64) 

12 = tf.nn.max pool(l2a, ksize=[1, 2, 2, 1], strides-[1, 2, 2, 1], paddi 
ng-'SAME') 

# 12 shape=(?, 7, 7, 64) 

12 = tf.nn.dropout(12, p keep conv) 











# 第 三 组 卷 积 层 及 池 化 层 ， 最 后 dropout 一 些 神经 元 





13a = tf.nn.relu(tf.nn.conv2d(12, w3, strides-[1, 1, 1, 1], padding='SAM 
E')) 

# 13a shape=(?, 7, 7, 128) 

13 = tf.nn.max pool(l3a, ksize=[1, 2, 2, 1], strides-[1, 2, 2, 1], paddi 
ng-'SAME') 

# 13 shape=(?, 4, 4, 128) 

13 = tf.reshape(13, [-1, w4.get shape().as list()[0]]) # reshape to ( 
?, 2048) 

13 = tf.nn.dropout(13, p keep conv) 


4 全 连接 层 ， 最 后 dropout 一 些 神经 元 
14 = tf.nn.relu(tf.matmul(13, w4)) 
14 = tf.nn.dropout(14, p keep hidden) 





# 输出 层 
pyx = tf.matmul(14, w_o) 
return pyx # 返 回 预 测 值 














我 们 定义 dropout 的 占 位 符 一 keep_conv， 它 表示 在 一 层 中 有 多 少 
比例 的 神经 元 被 保留 下 来 。 生 成 网 络 模型 ， 得 到 预测 值 ， 如 下 : 





p keep conv = tf.placeholder("float") 
p keep hidden = tf.placeholder("float") 
Dy x = model(X, w, w2, w3, w4, w o, p keep conv, p keep hidden) # 得 到 预测 值 











接 下 来 ， 定 义 损 失 函 数 ， 这 里 我 们 仍然 采用 
tf.nn.softmax_cross_entropy_with_logits 来 比较 预测 值 和 真实 值 的 差异 ， 
并 做 均值 处 理 ， 定 义 训练 的 操作 〈train_ op) ， 采 用 实现 RMSProp 算 法 





的 优化 器 tftrain.RMSPropOptimizer， 学 习 率 为 0.001， 衰 减 值 为 0.9， 使 
损失 最 小 ， 定 义 预 测 的 操作 Cpredict_op) 。 具 体 如 下 : 


cost = tf.reduce mean(tf.nn. softmax cross entropy with logits(logits-py x 
， labels-Y)) 

train op = tf.train.RMSPropOptimizer(0.001, 0.9).minimize(cost) 

predict op - tf.argmax(py x, 1) 





9.4.3 ”训练 模型 和 评估 模型 
先 定 义 训练 时 的 批 次 大 小 和 评估 时 的 批 次 大 小 ， 如 下 : 


batch size = 128 
test size = 256 





企 一 个 会 话 中 启动 图 ， 开 始 训练 和 评估 





# Launch the graph in a session 

with tf.Session() as sess: 
# you need to initialize all variables 
tf. global variables initializer().run() 


for i in range(100): 
training batch - zip(range(0, len(trX), batch size), 
range(batch size, len(trX)+1, batch size)) 
for start, end in training batch: 
sess.run(train op, feed dict-(X: trX[start:end], Y: trY[start:end], 


p keep conv: 0.8, p keep hidden: 0.5 
}) 


test indices = np.arange(len(teX)) # Get A Test Batch 
np.random.shuffle(test indices) 
test indices - test indices[0:test size] 


print(i, np.mean(np.argmax(teY[test indices], axis-1) -- 
sess.run(predict op, feed dict-(X: teX[test indices], 
p keep conv: 1.0, 
p keep hidden: 1.0)))) 





结果 如 下 : 





.96484375 
.984375 
.98828125 
.9921875 
.9921875 
.0 
.99609375 
.9921875 
.9921875 
.98046875 
.9921875 
.984375 
.984375 
.0 
.9921875 
.9921875 
.98828125 
.9921875 
.0 

.0 

20 0.99609375 
# 此 处 有 省 略 
71 0.98828125 
72 0.99609375 
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73 1.0 

74 0.99609375 
75 1.0 

76 0.9921875 
77 0.9921875 
78 0.99609375 
79 0.99609375 
80 1.0 

81 0.99609375 
82 0.9921875 
83 0.99609375 
84 0.99609375 
85 0.99609375 
86 0.99609375 
87 0.9765625 
88 0.99609375 
89 0.984375 
90 0.984375 
91 0.98828125 
92 1.0 

93 0.99609375 
94 0.9921875 
95 1.0 

96 0.99609375 
97 0.99609375 
98 0.9921875 
99 0.9921875 





上 面 输出 了 训练 的 次 数 和 准确 度 的 关系 。 可 以 看 出 ， 当 训练 100 $ 
后 精确 率 已 经 接近 99.229%6。 


通过 回归 模型 和 卷 积 神经 网 络 模型 ， 可 以 看 出 卷 积 神经 网 络 的 效果 
真 的 是 非常 好 。 如 果 把 循环 神经 网 络 (RNN) 应 用 再 MNIST 上 会 怎么 
样 呢 ? 


9.5 ”MNIST 的 循环 神经 网 络 Dl 


本 节 学 习 用 TensorFlow 搭 建 一 个 循环 神经 网 络 (RNN) 模型 ， 并 用 
它 来 训练 MNIST 数 据 集 。 





RNN 在 上 自然 语言 处 理 领 域 的 已 下 几 个 方 癌 应 用 得 非常 成 功 : 





Blas VE: 

。 语音 识别 ; 

。 图 像 描述 生成 〈 把 RNN 和 CNN 结 合 ， 根 据 图 像 的 特征 生成 描述 ， 
在 第 12 章 用 “看 图 说 话 ? 讲 解 ) ; 

语言 模型 与 文本 生成 ， 即 利用 生成 的 模型 预测 下 一 个 单词 的 可 能 
性 。 





更 多 的 资料 读者 可 参考 Alex Graves 的 论文 《Supervised Sequence 
Labelling with Recurrent Neural Networks) !9!, 


9.5.1 加载 数据 
这 一 步 和 9.2.1 市 MNIST 的 回归 模型 相同 ， 请 读者 参考 ， 不 再 资 述 。 
9.5.2 ”构建 模型 


首先 ， 设 置 训 练 的 超 参数 ， 分 别 设置 学 习 紊 、 训 练 次 数 和 每 轮训 练 
的 数据 大 小 : 





# 设置 训练 的 超 参数 
lr = 0.001 
training iters - 100000 


batch_size = 128 





为 了 使 用 RNN 来 分 类 图 片 ， 我 们 把 每 张 图 片 的 行 看 成 是 一 个 像 系 序 
列 Csequence) 。 因 为 MNIST 图 片 的 大 小 是 28x28 像 素 ， 所 以 我 们 把 每 
一 个 图 像样 本 看 成 一 行 行 的 序列 。 因 此 ， 共 有 (28 个 元 素 的 序列 ) 
x (2847) , ， 然 后 每 一 步 输入 的 序列 长 度 是 28， 输 入 的 步 数 是 28 步 。 下 
面 定义 RNN 的 参数 : 
# 神经 网 络 的 参数 
n input = 28 # 输入 层 的 n 
n_steps = 28 # 28 长 度 


n hidden units = 128 # 隐藏 层 的 神经 元 个 数 
n classes = 10 # 输出 的 数量 ， 即 分 类 的 类 别 ，6 一 9 个 数字 ， 共 有 16 个 























定义 输入 数据 及 权重 : 





# 输入 数据 占 位 符 
x = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) 
y = tf.placeholder(tf.float32, [None, n_classes]) 





# 定义 权重 
weights = { 
# (28, 128) 


'in': tf.Variable(tf.random_normal([n_inputs, n hidden units])), 
# (128, 10) 
'out': tf.Variable(tf.random normal([n hidden units, n classes])) 


j 
biases - ( 
& (128, ) 
'in': tf.Variable(tf.constant(0.1, shape-[n hidden units, ])), 
# (10, ) 
'out': tf.Variable(tf.constant(0.1, shape-[n classes, ])) 
} 





定义 RNN 模 型 : 





def RNN(X, weights, biases): 





巴 输 入 的 X 转 换 成 X ==> (128 batch * 28 steps, 28 inputs) 


# 
X = tf.reshape(X, [-1, n_inputs]) 


X 
in = tf.matmul(X, weights['in']) + biases['in'] 
X_in ==> (128 batch, 28 steps, 128 hidden) 

X in = tf.reshape(X in, [-1, n steps, n hidden units]) 

# 这 里 采用 基本 的 LSTM 循 环 网 络 单元 : basic LSTM Cell 

Istm_cell = tf.contrib.rnn.BasicLSTMCell(n_hidden_units, forget_bias=1.0 























state is tuple-True) 
# 初始 化 为 零 值 ，1stm 单 元 由 两 个 部 分 组 成 : (c state, h state) 
init_state = lstm_cell.zero_state(batch_size, dtype=tf.float32) 


# dynamic rnn #2\C3ket(batch, steps, inputs) ak (steps, batch, inputs) /F 
为 X_in 
outputs, final state = tf.nn.dynamic rnn(lstm cell, X_in, initial_ state 


init_state, time_major=False) 


results = tf.matmul(final state[1], weights['out']) + biases['out'] 
return results 


定义 损失 函数 和 优化 器 ， 优 化 器 采用 AdamOptimizer。 


pred = RNN(x, weights, biases) 

cost = tf.reduce mean(tf.nn.softmax cross entropy with logits(logits-pred, 
labels-y)) 

train op = tf.train.AdamOptimizer(lr).minimize(cost) 





定义 模型 预测 结 条 及 准确 率 计 算 方 法 : 


correct_pred = tf.equal(tf.argmax(pred, 1), tf.argmax(y, 1)) 
accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32) ) 





9.5.3 训练 数据 及 评估 模型 
竺 一 个 会 话 中 局 动 图 ， 开 始 训 练 ， 每 20 次 输出 1 次 准确 率 的 大 小 : 





with tf.Session() as sess: 

sess.run(tf.global variables initializer()) 

step = 0 

while step * batch_size < training iters: 
batch_xs, batch_ys = mnist.train.next_batch(batch_size) 
batch_xs = batch_xs.reshape([batch_size, n_steps, n_inputs]) 
sess.run([train op], feed dict-( 

X: batch xs, 


y: batch_ys, 

}) 

if step % 20 == 
print(sess.run(accuracy, feed_dict={ 
X: batch xs, 
y: batch ys, 

})) 

step += 1 





结果 如 下 : 





.117188 
.640625 
. 726562 
.695312 
. 859375 
. 773438 
. 90625 
此 处 有 省 略 
. 960938 
.945312 
.953125 
.976562 
.96875 
.953125 
.96875 
.960938 
.96875 
.960938 
.976562 
.96875 
.921875 
.96875 
. 984375 
.9375 





0 
0 
0 
0 
0 
0 
0 
# 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
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| 


可 以 看 出 ， 准 确 率 接近 93%， 人 准确 率 不 如 CNN 模 型 。 


9.6 ”MNIST 的 无 监督 学 习 


本 节 将 介绍 基于 无 监督 学 习 的 一 个 简单 应 用 一 一 自 编码 器 
(autoencoder) ， 并 学 习 用 TensorFlow 搭 建 一 个 自 编码 网 络 ， 并 用 它 在 
MNIST 数 据 集 上 训练 。 


9.6.1 ” 自 编码 网 络 UI 


前 面 讲 到 的 都 是 有 监督 学 习 ， 它 的 重要 特征 是 数据 都 是 有 标记 的 ， 
无 标记 的 数据 应 该 用 什么 样 的 网 络 模型 来 学 习 呢 ?下 面 我 们 就 介绍 一 个 
网 络 模型 一 自 编码 网 络 。 





自 编码 网 络 模型 如 图 9-5 所 示 。 | 


目 编码 网 络 的 作用 是 将 输入 样本 压 绽 到 隐藏 层 ， 然 后 解压 ， 在 输出 
端 重建 样本 。 最 终 输 出 层 神 经 元 数量 等 于 输入 层 神 经 元 的 数量 。 





这 里 面 主要 有 两 个 过 程 : 压缩 和 人 解压。 压缩 依靠 的 是 输入 数据 (图 
f. XCE. FD) 本 身 存 在 不 同 程 度 的 见 余 信息 ， 自 动 编码 网 络 通 过 学 
习 去 挥 这 些 见 余 信息 ， 把 有 用 的 特征 输入 到 隐藏 层 中 。 这 里 和 主 成 分 分 
析 (principal components analysis, PCA!) 有 些 类 似 ， 要 找到 可 以 代 
表 源 数据 的 主要 成 分 。 其 实 ， 如 果 激 活 函数 不 使 用 sigmoid 等 非 线 性 函 
数 ， 而 使 用 线性 函数 ， 就 是 PCA 模 型 。 可 以 想象 ， 如 果 数 据 都 是 完全 随 
机 、 相 互 独立 、 同 分 布 的 ， 自 编码 网 络 就 很 难 学 习 到 一 个 有 效 的 压缩 模 
型 。 

















图 9-5@ 





压缩 过 程 一 方面 要 限制 隐藏 神经 元 的 数量 ， 来 学 习 一 些 有 意义 的 特 
征 ， 男 一 方面 还 希望 神经 元 大 部 分 时 间 是 被 抑制 的 ， 妆 神经 元 的 输出 接 
近 1 时 认为 是 被 激活 的 ， 接 近 0 时 认为 是 被 抑制 的 。 硕 望 部 分 神经 元 处 于 
被 抑制 状态 ， 这 种 规则 称 为 稀 玻 性 限制 。 


多 个 隐藏 层 的 主要 作用 是 ， 如 果 输 入 的 数据 是 图 像 ， 第 一 层 会 学 习 
如 何 识别 边 ， 第 二 层 会 学 习 如 何 去 组 合 边 ， ee AT EA 
层 会 学 习 如 何 去 组 合 更 有 意义 的 特征 。 例 如 ， 如 果 输 入 数据 是 人 脸 图 像 
的 话 ， 更 高 层 会 学 习 如 何 识别 和 组 合 眼睛 、 鼻 子 、 嘴 等 人 脸 器 官 。 











9.6.2 ”TensorFlow 的 自 编码 网 络 实现 [10] 

下 面 我 们 还 以 MNIST 数 据 集 为 例 ， 讲 解 一 下 目 编 码 堪 的 运用 。 
1. 加 载 数据 

先导 入 必要 的 库 ， 如 下 : 


import tensorflow as tf 
import numpy as np 
from tensorflow.examples.tutorials.mnist import input_data 





2. 构建 模型 


首先 ， 设 置 训 练 的 超 参数 ， 包 括 学 习 率 、 训 练 的 轮 Cepocho 数 


(全 部 数据 训 完 一 吉成 为 一 轮 ) 、 每 次 训练 的 数据 多 少 、 每 隔 多 少 轮 显 
示 一 次 训练 结果 : 


# 设置 训练 超 参数 

learning rate = 0.01 # 学 习 率 

training epochs = 20 # 训练 的 轮 数 

batch size = 256 # 每 次 训练 的 数据 多 少 
display step = 1 # 每 隔 多 少 轮 显示 一 次 训练 结果 

















还 要 设置 其 他 参数 变量 ， 表 示 从 测试 集中 选择 10 张 图 片 去 验证 自动 
编码 占 的 结果 : 


examples to show = 10 








然后 定义 输入 数据 ， 这 里 是 无 监督 学 习 ， 所 以 只 需要 输入 图 片 数 
据 ， 不 需要 标记 数据 。 








X = tf.placeholder("float", [None, n_input]) 





随后 初始 化 权重 与 定义 网 络 结构 。 我 们 设计 这 个 目 动 编码 网 络 含有 
两 个 隐藏 层 ， 第 一 个 隐藏 层 神经 元 为 256 个 ， 第 二 个 隐藏 层 神经 元 为 128 


个 。 定 义 网 络 参数 如 下 : 


# 网 络 参数 
n hidden 1 = 256 # 第 一 个 隐藏 层 神经 元 个 数 ， 也 是 特 条 
n hidden 2 = 128 # 第 二 个 隐藏 层 神经 元 个 数 ， 也 是 特 和 
n input = 784 # 输入 数据 的 特征 值 个 数 : 28x28=784 
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weights = { 


'encoder h1': .Variable(tf. 
'encoder h2': .Variable(tf. 
'decoder h1': .Variable(tf. 
'decoder h2': .Variable(tf. 


} 


biases = { 


'encoder b1': .Variable(tf. 
'encoder b2': .Variable(tf. 


'decoder b1': .Variable(tf. 
'decoder b2': .Variable(tf. 


} 





random_normal([n_input, n_hidden_1])), 
random_normal([n_hidden_1, n_hidden_2])), 
random_normal([n_hidden_2, n_hidden_1])), 
random_normal([n_hidden_1, n_input])), 


random_normal([n_hidden_1])), 
random_normal([n_hidden_2])), 
random_normal([n_hidden_1])), 
random_normal([n_input])), 





接着 ， 定 义 自动 编码 模型 的 网 络 结构 ， 包 括 压 缩 和 解压 两 个 过 程 : 


# 定义 压缩 函数 


def encoder(x): 
# Encoder Hidden layer with sigmoid activation #1 
layer 1 = tf.nn.sigmoid(tf.add(tf.matmul(x, weights['encoder h1']), 
biases['encoder b1'])) 
# Decoder Hidden layer with sigmoid activation #2 
layer 2 = tf.nn.sigmoid(tf.add(tf.matmul(layer 1, weights['encoder h2']) 


biases['encoder b2'])) 
return layer 2 


# 定义 解压 函数 
def decoder(x): 
# Encoder Hidden layer with sigmoid activation #1 
layer 1 = tf.nn.sigmoid(tf.add(tf.matmul(x, weights['decoder h1']), 
biases['decoder b1'])) 
# Decoder Hidden layer with sigmoid activation #2 
layer 2 - tf.nn.sigmoid(tf.add(tf.matmul(layer 1, weights['decoder h2']) 


biases['decoder b2'])) 
return layer 2 
# 构建 模型 
encoder op = encoder(X) 
decoder op = decoder(encoder op 








接着 ， 我 们 构建 损失 函数 和 优化 器 。 这 里 的 损失 函数 用 “最 小 二 乘 





法 ?对 原始 数据 集 和 输出 的 数据 集 进行 平方 差 并 取 均 值 运 算 ， 优 化 器 采 
用 RMSPropOptimizer。 





# 得 出 预测 值 
y_pred = decoder_op 
# 得 出 真实 值 ， 即 输入 值 
y_true = X 


# 定义 损失 函数 和 优化 器 
cost = tf.reduce mean(tf.pow(y true - y pred, 2)) 
optimizer = tf.train.RMSPropOptimizer(learning rate).minimize(cost) 


3. 训练 数据 及 评 佑 模型 
下 一 个 会 话 中 局 动 图 ， 开 始 训 练 和 评估 : 


with tf.Session() as sess: 


sess.run(init) 
total batch = int(mnist.train.num_examples/batch_size) 


# 开始 训练 


for epoch in range(training epochs): 


for i in range(total batch): 
batch xs, batch ys - mnist.train.next batch(batch size) 
# Run optimization op (backprop) and cost op (to get loss value) 
_, C = sess.run([optimizer, cost], feed dict-(X: batch xs}) 
# 每 一 轮 ， 打 印 出 一 次 损失 值 
if epoch % display_step == @: 
print("Epoch:", '%@4d' % (epoch+1), "cost=", "{:.9f}".format(c)) 





print( "Optimization Finished!") 


# 对 测试 集 应 用 训练 好 的 自动 编码 网 络 
encode decode = sess.run(y_pred, feed dict-(X: mnist.test.images[:exampl 
es to show])) 

# 比较 测试 集 原 始 图 片 和 自动 编码 网 络 的 重建 结果 

f，a = plt.subplots(2, 10, figsize=(10, 2)) 

for i in range(examples_to_show): 
a[0][i].imshow(np.reshape(mnist.test.images[i], (28, 28))) # 测 试 集 
a[1][i].imshow(np.reshape(encode decode[i], (28, 28))) # 重建 结果 

f.show() 

plt.draw() 

plt.waitforbuttonpress() 























Avian T BEFORE, SER OP: 


Epoch: 0001 cost- 
Epoch: 0002 cost- 
Epoch: 0003 cost- 
Epoch: 0004 cost- 
Epoch: 0005 cost- 
Epoch: 0006 cost- 
Epoch: 0007 cost- 
Epoch: 0008 cost- 0.127759427 
Epoch: 0009 cost- 0.124004595 


0.210102022 
0 
0 
0 
0 
0 
0 
0 
0 
Epoch: 0010 cost- 0.123085082 
0 
0 
0 
0 
0 
0 
0 
0 
0 


.175847366 
.161052987 
.149544969 
.142014906 
.135422051 
.131084189 


Epoch: 0011 cost- @.117432065 
Epoch: 0012 cost- 0.119511291 
Epoch: 0013 cost- 0.115581676 
Epoch: 0014 cost- @.113403663 
Epoch: 0015 cost- 0.110742018 
Epoch: 0016 cost- 0.111147717 
Epoch: 0017 cost- 0.105923556 
Epoch: 0018 cost- 0.105761752 
.103263445 


Epoch: 0019 cost- 
Epoch: 0020 cost- 0.101153791 
Optimization Finished! 





可 以 看 出 随 着 训练 次 数 的 增多 ， 损 失 值 趋 于 减少 。 


测试 集 的 图 片 和 经 过 自动 编码 器 重建 特征 后 的 图 片 对 比如 图 9-6 所 
示 。 上 面 一 行 是 测试 集 的 图 片 ， 下 面 一 行 对 应 的 是 经 过 上 自动 编码 器 重建 
后 的 结果 。 
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图 9-6 
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本 章 主 要 介绍 了 TensorFlow 在 手写 数字 数据 集 MNIST 的 图 像 识别 中 
的 应 用 。 以 MNIST 数 据 集 为 例 ， 讲 解 了 最 简单 的 Softmax 回 归 、 卷 积 神 
经 网 络 (CNN) 、 循 环 神经 网 络 (RNN) 、 自 动 编码 器 模型 的 构建 和 
训练 方式 。 同 时 应 用 tf.summary.FileWriterO 可视化 的 API 来 配合 
TensorBoard 的 可 视 化 展现 。 





[1] http://yann.lecun.com/exdb/mnist/ 。 
[2] 格式 内 容 参 考官 方 网 站 http://yann.lecun.com/exdb/mnist/ 。 


[B] 参见 百度 百科 “MSB”: http://baike.baidu.conylink? 
url=r3DrWE4OHhsdq-u0u8D_pJ9_24Kmzl5jwrhdBBOC1azd7nxCz 
IfM9BkPVbPF os2glaJuOpLctzwG7RpxEKUKK 。 


[4] A B9 S https://github.com/nlintz/TensorFlow- 


Tutorials/blob/master/05 convolutional net.py . 


[5] APRES Shttps://github.com/aymericdamien/TensorFlow- 
Examples/blob/master/examples/3 Neural Networks/recurrent network.py 


， 并 做 了 相应 修改 。 


[6] http://www.cs.toronto.edu/~graves/preprint.pdf 


[7] ”本 节 参 考 UFLDL 的 文 


I 


草 : http://ufldl.stanford.edu/wiki/index.php/Autoencoders and Sparsity . 


[8] ”本 图 参 
考 http://ufldl.stanford.edu/wiki/index.php/Autoencoders_and_Sparsity . 


[9] ” 主 成 分 分 析 Cprincipal components analysis, PCA) 是 一 种 分 析 、 
简化 数据 集 的 技术 。 经 常用 于 减少 数据 集 的 维 数 ， 同 时 保持 数据 集中 对 
方差 贡献 最 大 的 特征 。 这 是 通过 保留 低 阶 主 成 分 ， ilo. dad 
的 。 是 最 常用 的 线性 降 维 方法 。〔 出 自 维基 百科 “ 主 成 分 分 析 ”。 





[10] ”本 节 代 码 主要 参考 https://github.com/aymericdamien/TensorFlow- 


Examples/blob/master/examples/3 NeuralNetworks/ autoencoder.py . 


第 10 章 ”人 脸 识 别 


人 脸 识 别 是 基于 人 的 脸 部 特征 信息 进行 身份 识别 的 一 种 生物 识别 技 
术 。 用 摄像 机 或 摄像 头 采 集 含 有 人 脸 的 图 像 或 视频 流 ， 并 自动 在 图 像 中 
检测 和 跟踪 入 脸 ， 进 而 对 检测 ”到 的 人 脸 进行 一 系列 与 脸 部 相关 的 技术 
处 理 ， 包 括 人 脸 检测 、 人 脸 关 键 点 检测 、 人 脸 验 证 等 。 


在 《 麻 省 理工 科技 评论 》 (MIT Technology Review ) 发 布 的 2017 年 
全 球 十 大 突破 性 技术 榜 单 中 ， 支 付 宝 的 “ 刷 脸 支付 ”(Paying with Your 
Face) 成 功 入 围 ， 并 且 其 评论 称 ， 该 技术 提供 了 一 种 安全 并 且 十 分 方便 
的 支付 方式 ， 并 且 已 经 处 于 成 熟 期 。 





10.1 人 脸 识 别 简介 





现在 很 多 App 都 应 用 了 人 脸 识 别 技术 ， 让 用 户 体 验 “ 刷 脸 认 证 “有 皮 眼 
支付 ”等 。 人 脸 识 别 具 有 很 多 天 然 的 优势 。 








。 非 强制 性 : 采集 方式 不 容易 被 察觉 ， 被 识别 的 人 脸 图 像 可 以 主动 
获取 。 

e 非 接触 性 : 用 户 不 需 

e FRIE: 能 够 同时 进 





要 与 设备 接触 。 
行 多 个 人 脸 的 检测 、 跟 踪 和 识别 。 








在 深度 学 习 出 现 以 前 ， 人 脸 识 别 方法 一 般 分 为 两 个 步骤 : 高 维 人 工 
特征 提取 和 降 维 。 传 统 的 人 上 脸 识别 技术 主要 是 基于 可 见 光 图 像 的 人 脸 识 
别 。 但 这 种 方式 有 很 多 缺陷 ， 例 如 ， 同 一 个 人 在 姿势 、 光 照 等 发 生变 化 
时 ， 会 使 识别 率 大 大 降低 。 目 前 ， 深 度 学 习 + 大 数据 【〈 海 量 的 有 标注 人 
脸 数 据 ) 成 为 人 脸 识别 领域 的 主流 技术 路 线 。 

















采用 神经 网 络 的 人 脸 识 别 技术 ， 可 以 通过 大 量 样本 图 像 训练 来 得 到 
识别 模型 ， 不 需要 人 工 选取 特征 ， 而 是 在 样本 的 训练 过 程 中 自行 学 习 。 
它 的 识别 准确 率 极 高 ， 可 以 达到 99%。 


下 面 我 们 就 介绍 基于 神经 网 络 的 人 脸 识别 扩 术 的 识别 流程 。 


10.2 人 脸 识 别 的 技术 流程 


人 脸 识 别 系 统一 般 主 要 包括 4 个 组 成 部 分 ， 分 别 为 人 脸 图 像 采 集 及 
检测 、 人 脸 图 像 预 处 理 、 人 上 脸 图 像 特征 提取 以 及 人 脸 图 像 风 配 与 识别 。 


10.2.1 人 脸 图 像 采 和 集 及 检测 


人 上 脸 识别 的 第 一 步 束 是 人 脸 的 图 像 采 集 及 检测 。 人 脸 图 像 采 集 是 
tai ARIE ARR POR, WPS AR. SAR. AA 
位 置 、 不 同 表 情 等 。 当 用 户 在 采集 设备 的 担 摄 范围 内 时 ， 采 集 设 备 会 目 
动 搜索 并 拍摄 。 











人 脸 检 测 属于 目标 检测 Cobject detection) 的 一 部 分 ， 主 要 涉及 以 
下 两 个 方面 : 


CL) 对 要 检测 的 目标 对 象 进行 概 京 统计， 从 而 得 到 待 检测 对 象 的 
一 些 特征 ， 建 立 起 目标 检测 模型 ， 


(2) 用 得 到 的 模型 来 匹配 输入 的 图 像 ， 如 果 有 匹配 则 输出 匹配 的 
区 域 ， 没 有 就 什么 也 不 做 。 





人 脸 检 测 是 人 脸 识 别 的 预 处 理 的 一 部 分 ， 即 在 图 像 中 准确 标定 出 人 
脸 的 位 置 和 大 小 。 人 脸 图 像 中 包含 的 模式 特征 十 分 丰富 ， 如 直方 图 特 
征 、 颜 色 特 征 、 模 板 特征 、 结 构 特 征 及 哈 尔 特征 〈Haar-like feature) 
等 。 人 脸 检测 就 是 把 这 其 中 有 用 的 信息 挑 出 来 ， 并 利用 这 些 特 征 实现 人 
脸 检测 。 








在 人 脸 检 测算 法 中 ， 有 模板 匹配 模型 、Adaboost 模 型 等 ， 其 中 
Adaboost 模 型 在 速度 与 精度 的 综合 性 能 上 表现 最 好 。 该 算法 的 特点 就 是 
训练 慢 ， 检 测 快 ， 基 本 上 可 以 达到 视频 流 实时 检测 效果 。 


10.2.2 人 脸 图 像 预 处 理 


人 脸 图 像 预 处 理 是 基于 人 上 脸 检测 的 结果 ， 对 图 像 进 行 处 理 ， 为 后 
面 的 特征 提取 服务 。 系 统 获取 的 人 脸 图 像 可 能 受到 各 种 条 件 的 限制 和 随 
机 干扰 ， 需 要 进行 缩放 、 旋 转 、 拉 伸 、 光 线 补 偿 、 灰 度 变 换 、 下 方 图 均 
衡 化 、 规 范 化 、 几 何 校正 、 过 滤 以 及 锐 化 等 图 像 预 处 理 。 


10.2.3 ”人 脸 图 像 特征 提取 


人 脸 图 像 特 征 提 取 就 是 将 人 脸 图 像 信息 数字 化 ， 将 一 张 人 脸 图 像 
转变 为 的 一 捉 数 字 一般 称 为 特征 向 量 )。 例 如 ， 对 一 张 脸 ， 找 到 它 
的 眼睛 左边 、 嘴 唇 右边 、 鼻 子 、 下 巴 等 位 置 ， 利 用 特征 点 间 的 欧 氏 距 
离 、 曲 率 和 和 角度 等 提取 出 特征 分 量 ， 最 终 把 相关 的 特征 连接 成 一 个 长 的 
E IATER o 


10.2.4 人 脸 图 像 匹配 与 识别 


人 脸 图 像 匹 配 与 识别 束 是 把 提取 的 人 脸 图 像 的 特征 数据 与 数据 库 
中 存储 的 人 脸 特 征 模板 进行 搜索 匹配 ， 根 据 相 似 程度 对 号 份 信息 进行 判 
断 ， 设 定 一 个 阐 值 ， 当 相似 度 超 过 这 一 阔 值 ， 则 把 匹配 得 到 的 结果 输 
出 。 这 一 过 程 又 分 为 两 类 : 一 类 是 确认 ， 是 一 对 一 (1:1) 进行 图 像 比 
较 ， 换 名 话说 就 是 证 明 “ 你 就 是 你 ”， 一 般 用 在 金融 的 核实 身份 和 信息 安 
全 领域 ， 另 一 类 是 辨认 ， 是 一 对 多 〈1:N) 进行 图 像 匹配 ， 也 就 是 说 在 
N 个 人 中 找到 你 ， 一 般 的 N 可 以 是 一 个 视频 流 ， 只 要 人 走 进 识别 范围 就 





Ax 











完成 识别 工作 ， 一 般 用 在 安防 领域 。 


10.3 人 脸 识 别 的 分 类 
在 人 脸 识别 领域 ， 主 要 有 以 下 4 个 细 分 方向 。 


。 人 上 脸 检测 ; 

e. 人 上 脸 关键 点 检测 ; 
。 人 脸 验 证 ; 

。 人 上 脸 属 性 检测 。 


10.3.1 人 脸 检 测 


人 上 脸 检测 是 指 检测 并 定位 图 片 中 的 人 脸 ， 返 回 高 精度 的 人 脸 框 华 
标 。 人 脸 检测 是 对 人 脸 进行 分 析 和 处 理 的 第 一 步 。 早 期 的 检测 过 程 称 
为 “请 动 窗 口 ?， 也 如 是 选择 图 像 中 的 某 个 矩形 区 域 作 为 请 动 窗口 ， 在 这 
个 窗口 中 提取 一 些 特征 对 这 个 图 像 区 域 进 行 描述 ， 最 后 根据 这 些 特征 描 
述 来 判断 这 个 窗口 是 不 是 人 脸 。 人 人 脸 检 测 的 过 程 就 是 不 断 吉 历 需 要 观察 
的 窗口 。 例 如 ， 检 测 结果 就 如 图 10-1 所 示 。 











图 10-1 


10.3.2 人 脸 关 键 点 检测 





人 脸 关 键 点 检测 是 指定 位 并 返回 人 脸 五 官 与 轮廓 的 关键 点 坐标 位 置 
《如 图 10-2 所 示 ) . RSEN BLAN AJISSE EE. HRHS. BE KRUKA 
轮廓 。 现 在 某 些 人 脸 识 别 公 司 ， 如 Face++ 能 提供 高 精度 的 关键 点 ， 最 多 
可 达 106 点 。 无 论 是 静态 图 片 还 是 动态 视频 流 ， 均 能 完美 贴 合 人 脸 。 


c. 





图 10-2 


人 脸 关 键 点 定位 技术 主要 有 级 联 形 回 归 (cascaded shape 
regression, CSR) ， 目 前 人 脸 识 别 一 般 是 基于 DeepID 网 络 结构 。 
DeepID 网 络 结构 和 卷 积 神经 网 络 结构 类 似 ， 主 要 区 别 在 倒数 第 二 层 ， 
DeepID 网 络 结构 有 一 个 DeepID 层 ， 它 与 卷 积 层 4 和 最 大 池 化 层 3 相 连 ， 
由 于 卷 积 神经 网 络 层 数 越 高 视野 域 越 大 ， 这 种 连接 方式 可 以 既 考 虑 局 部 
的 特征 ， 又 考虑 全 局 的 特征 ， 如 图 10-3 所 示 。 











Soft-max 





图 10-3 [H 
10.3.3 ”人 脸 验 证 


人 脸 验证 是 指 分 析 两 张 人 脸 属 于 同一 个 人 的 可 能 性 大 小 。 输 入 两 张 
人 上 脸 ， 得 到 一 个 置信 和 度 分 数 和 相应 的 立 值 ， 以 便 评估 相似 度 。 图 10-4 是 
我 调用 Face++ 的 人 脸 验 证 在 线 接口 得 到 的 结果 。 对 比 结果 为 : 是 同一 个 
人 的 可 能 性 很 高 。 





图 10-4 
10.3.4 人 脸 属 性 检测 


人 脸 属 性 检测 包括 人 脸 属 性 辨识 和 人 脸 情 绪 分 析 。 例 如 ， 
f£https://www.betaface.com/wpa/ 可 以 进行 人 脸 识 别 在 线 测 试 ， 可 以 给 出 
人 的 年 龄 、 是 否 有 胡子 、 情 绪 〈( 高 兴 、 正 常 、 和 生气、 导 怒 ) 、 性 别 、 是 
否 带 眼镜 、 肤 色 每 。 图 10-5 中 给 出 的 是 我 的 一 张 照 片 的 测试 结果 ， 因 为 
化 妆 和 灯光 的 原因 ， 结 果 并 不 是 很 准确 。 





Face Position Classifiers and measurements 


k 
J 


427.8, 511.6 age : 15 (60%), beard : no, expression : neutral (75%), gender : female, glasses 
-9.00 deg : yes, mustache : no, race : white 
345 x 345 





score: 1 





图 10-5 





人 脸 识 别 可 以 应 用 在 很 多 方面 。 例 如 ， 关 图 秀 秀 之 类 的 美 颜 应 用 ， 
世纪 佳缘 等 相 杀 应 用 中 的 查看 与 潜在 配偶 的 “面相 ?相似 度 ， 以 及 文 付 领 
域 的 “ 刷 脸 支付 "和 安防 领域 的 < 人 脸 鉴 权 ”。 同 时 ， 国 内 的 Face++ 和 两 汤 
科技 等 公司 ， 都 提供 了 人 脸 识 别 的 相应 SDK， 供 开发 者 调用 。 








下 面 和 大 家 一 起 做 两 个 练习 : 一 个 是 关于 人 脸 检测 的 ， 男 一 个 是 人 
脸 的 性 别 和 年 龄 识别 。 


10.4 人 脸 检 测 办 


本 节 示 例 是 TensorFlow 的 人 脸 识 别 实现 ， 参 考 了 Florian Schroff, 
Dmitry Kalenichenko 和 James Philbin 的 论文 《FaceNet: A Unified 
Embedding for Face Recognition and Clustering) D?! 。 本 节 的 人 脸 检 测 的 
WHEE JS https://github.com/davidsandberg/facenet/wiki/Validate-on-lfw 


我 们 先 把 代码 下 载 下 来 : 


git clone --recursive https://github.com/davidsandberg/facenet.git 





10.4.1 LEFW 数 据 集 


这 里 采用 的 数据 集 是 LFW (Labeled Faces in the Wild Home) 数据 
集 ^1, 。 这 个 数据 集 是 由 美国 马萨诸塞 大 学 阿 姆 斯 特 分 校 计 算 机 视觉 实 
验 室 整 理 的 。 它 包含 13 233 张 图 片 ， 共 5 749 人 ， 其 中 4 096 人 只 有 一 张 
图 片 ，1 680 人 的 图 片 多 于 一 张 ， 每 张 图 片 太 寸 是 250x250。 





我 们 将 下 载 后 的 数据 集 解 压 放 在 $SYOURHOME 
/facenet/datasets/lfw/raw， 这 里 的 $9YOURHOME 写成 你 上 自己 的 目录 。 下 
载 后 的 数据 集 如 下 : 





drwxr-xr-x@ 
drwxr-xr-x@ 
drwxr -xr-x@ 
drwxr -xr-x@ 
drwxr -xr - x() 
drwxr -xr - x 
drwxr -xr -x(9 
drwxr -xr -x(9 
drwxr-xr-x@ 


jiaxuan 
jiaxuan 
jiaxuan 
jiaxuan 
jiaxuan 
jiaxuan 
jiaxuan 
jiaxuan 
jiaxuan 


AJ Cook 

AJ Lamas 

Aaron Eckhart 
Aaron Guiel 
Aaron Patterson 
Aaron Peirsol 
Aaron Pena 
Aaron Sorkin 
Aaron Tippin 


UJ 4» uU) OY UJ UJ) UJ) UJ UJ 
NN NN N N N N M 








人 脸 图 片 位 于 上 述 每 个 人 物 名 字 的 文件 夹 下 ， 命 名 方式 为 “名 字 
_XXXX.jpg”。 例 如 ，AJ_Cook 文 件 夹 中 的 图 片 的 文件 名 为 
AJ_Cook_0001.jpg. 





10.4.2 ”数据 预 处 理 


在 图 像 识别 中 ， 数 据 预 处 理 是 很 重要 的 一 步 。 这 里 使 用 facenet 源 代 
人 码 下 的 align 模 块 去 校准 。 校 准 代 码 见 
https://github.com/davidsandberg/facenet/blob/master/src/align/align_dataset_ 
。 我 们 需要 将 检测 所 使 用 的 数据 集 校 准 为 和 预 训练 模型 所 使 用 的 数据 集 
大 小 一 致 。 





为 了 能 正确 运行 校准 程序 ， 需 要 设置 一 下 环境 变量 : 





export PYTHONPATH=$YOURHOME 


/ facenet/src 


校准 命令 如 下 : 


for N in {1..4}; do python src/align/align dataset mtcnn.py $YOURHOME/face 
net 
/datasets/lfw/raw $YOURHOME 


/facenet/datasets/lfw/lfw mtcnnpy 160 --image size 160 
--margin 32 --random order --gpu memory fraction 0.25 & done 





这 里 采用 GitHub 上 提供 的 预 训练 模型 20170216-091149.zip I?! ， 采 用 
的 训练 集 是 MS-Celeb-1M 数 据 集 [6 。MS-Celeb-1M 是 微软 的 一 个 非常 大 
的 人 脸 识别 数据 库 ， 它 是 从 名 人 榜 上 选择 前 100 万 的 名 人 ， 然 后 通过 搜 
索引 擎 采集 每 个 名 人 大 约 100 张 人 脸 图 片 而 形成 的 。 这 个 预 训 练 模型 的 
准确 率 已 经 达到 0.993+0.004。 








我 们 将 下 载 后 的 模型 解压 到 $YOURHOME 
/facenet/models/facenet/20170216-091149， 里 面包 含 的 文件 如 下 : 


model-20170216-091149.ckpt-250000.data-00000-of -00001 
model-20170216-091149.ckpt-250000.index 
model-20170216-091149.met 





10.4.3 ”进行 检测 
进入 facenet 目 录 ， 用 如 下 命令 运行 脚本 : 


python src/validate on lfw.py datasets/lfw/lfw mtcnnpy 160 models 





得 到 的 结果 如 下 : 





Model directory: /media/data/DeepLearning/models/facenet/20170216-091149/ 
Metagraph file: model-20170216-091149.meta 

Checkpoint file: model-20170216-091149.ckpt-250000 

Runnning forward pass on LFW images 

Accuracy: 0.9934-0.004 

Validation rate: 0.975334-0.01352 (0 FAR-0.00100 

Area Under Curve (AUC): 0.999 

Equal Error Rate (EER): 0.008 


| 


为 了 和 基准 进行 比较 ， 这 里 采用 facenet/data/pairs.txt 文 件 ， 它 是 官 
方 随机 生成 的 数据 ， 里 面包 含 匹配 和 不 匹配 的 人 名 和 图 片 编号 。 匹 配 的 
人 名 和 图 片 编写 示例 如 下 : 


Abel Pacheco 1 4 





表示 Abel_Pacheco 的 第 1 张 和 第 4 张 是 一 个 人 。 
不 匹配 的 人 名 和 图 片 编号 示例 如 下 : 


Abdel Madi Shabneh 1 Dean_Barker 1 





表示 Abdel Madi Shabneh 的 第 1 张 和 Dean_Barker 的 第 1 张 不 是 一 个 
po 


下 面 我 们 看 一 下 validate_on_lfw.py 是 如 何 检 测 人 脸 的 。 可 以 说 分 为 
4 步 ， 具 体 如 下 : 


def main(args): 


with tf.Graph().as default(): 


with tf.Session() as sess: 


'1']] 


)， 


t:0") 


批 次 数 





#1. 读 入 之 前 的 pairs.txt 文 件 
# 读 入 后 如 [['Abel_Pacheco'"，'1'，'4'] 
# ['Akhmed Zakayev', '1', '3'] ['Slobodan Milosevic', '2', 'Sok An', 


pairs - lfw.read pairs(os.path.expanduser(args.lfw pairs)) 


# 获取 文件 路 径 和 是 否 匹配 的 关系 对 


paths, actual issame = lfw.get paths(os.path.expanduser(args.lfw dir 








pairs, args.lfw file ext) 


# 2. 加 载 模型 
print('Model directory: %s' % args.model_dir) 
meta file, ckpt file = facenet.get model filenames(os.path.expanduse 


(args.model dir)) 
print('Metagraph file: %s' % meta file) 


print('Checkpoint file: %s' % ckpt file) 
facenet.load model(args.model dir, meta file, ckpt file) 





# 获取 输入 、 和 输出 的 张 量 
images placeholder = tf.get default graph().get tensor by name("inpu 


embeddings = tf.get default graph().get tensor by name("embeddings:O 


phase train placeholder - tf.get default graph().get tensor by name 
("phase train:0") 


image size - images placeholder.get shape()[1] 
embedding size - embeddings.get shape()[1] 




















# 3. 使 用 前 向 传播 来 验证 

print('Runnning forward pass on LFW images’ ) 

batch size = args.lfw batch size 

nrof images - len(paths) 

nrof batches = int(math.ceil(1.0*nrof images / batch size)) # 总 共 的 


emb array - np.zeros((nrof images, embedding size)) 
for i in range(nrof batches): 

start index - i*batch size 

end index = min((i-1)*batch size, nrof images) 


paths batch = paths[start index:end index] 
images - facenet.load data(paths batch, False, False, image size 





) 
feed dict - ( images placeholder:images, phase train placeholder 
:False } 
emb_array[start_index:end_index,:] = sess.run(embeddings, 
feed dict-feed di 
ct) 
# 4。 这 里 计算 准确 率 和 验证 率 ， 使 用 了 十 折 交 叉 验 证 的 方法 
tpr, fpr, accuracy, val, val std, far = lfw.evaluate(emb array, 
actual issame, nrof folds-args.lfw nrof folds) 
print('Accuracy: X1.3f«-71.3f' % (np.mean(accuracy), np.std(accuracy 
)) 
print('Validation rate: %2.5f+-%2.5f @ FAR=%2.5f' % (val, val std, f 
ar)) 


# 得 到 auc 值 

auc = metrics.auc(fpr, tpr) 

print('Area Under Curve (AUC): X1.3f' % auc) 

# 得 到 等 错误 率 Cer) 

eer = brentq(lambda x: 1. - x - interpolate.interpld(fpr, tpr)(x), © 
£31.) 

print('Equal Error Rate (EER): X1.3f' % eer) 











这 里 采用 十 折 交 叉 验 证 l! (10-fold cross validation) 的 方法 来 测试 
算法 的 准确 性 。 十 折 交 又 验 证 是 常用 的 精度 测试 方法 ， 具 体 策略 是 : 将 
数据 集 分 成 10 份 ， 轮 流 将 其 中 9 份 做 训练 集 ，1 份 做 测试 集 ，10 次 的 结 


的 均值 作为 对 算法 精度 的 估计 ， 一 般 还 需要 进行 多 次 10 折 交叉 验证 求 均 
值 ， 例 如 ，10 次 10 折 交叉 验证 ， 再 求 其 均值 ， 作 为 对 算法 准确 性 的 估 
Ve 


10.5 ”性 别 和 年 龄 识别 Il 


示例 中 数据 集 采用 Adience 数 据 集 9! 。Adience 数 据 集 包含 26 580 张 
图 片 ， 总 共 含 有 2 284 类 ， 涉 及 的 年 龄 范围 有 8 个 区 段 (0—2. 4—6. 8 
一 13、15 一 20、25 一 32、38 一 43、48 一 53、60 一 ) ， 并 且 这 个 数据 集合 
有 噪声、 姿势 、 光 照 等 变化 ， 尽 可 能 真实 地 反映 现实 世界 。 





下 载 后 的 Adience 数 据 集 如 下 : 


AdienceBenchmarkOfUnfilteredFacesForGenderAndAgeClassification 
— aligned # 经 过 剪裁 和 对 齐 的 数据 
— faces # 原始 数据 
— fold 0 data.txt 
— fold_1_data.txt 
— fold_2_data.txt 
— fold_3_data.txt 
| 一 fold 4 data.txt 
— fold frontal 0 data.txt 
— fold_frontal_1_data.txt 
— fold_frontal_2_data.txt 
| 一 fold frontal 3 data.txt 
L— fold frontal 4 data.txt 














fold 0 data.txt &fold 4 _data.txt 里 面 是 全 部 数据 的 标记 ， 
fold frontal 0_data.txt 至 fold_frontal 4 data.txt 里 面 是 仅 使 用 近似 正面 姿 
态 的 面部 的 标记 ， 它 们 都 包含 表 10-1 所 示 的 数据 。 其 中 user_ id 是 用 户 
的 Flickr H0] 帐户 ID; original_image 是 图 片 的 文件 名 ; face_id 是 一 个 人 的 


标识 符 ， 标 记 为 同一 个 人 ; x、y、dx、dy 给 出 一 个 围绕 一 个 人 脸 的 边 
KE. tilt_ange WAAR, fiducial yaw. anglezéJ&ifE fi $2 ff FE , 
fiducial_score 是 基准 分 数 。 


表 10-1 





113445054@N07 | 11763777465_11d01c34ce_o.jpg | 1322 (25,32) 1102 357 


10.5.1 数据 预 处 理 
使 用 脚本 EH 把 数据 处 理 成 TFRecords 的 格式 ， 处 理 后 的 文件 列表 如 


Tes 


train-00000-of-00010 
train-00001-of-00010 
train-00002-of-00010 
train-00003-of-00010 
train-00004-of-00010 
train-00005-of-00010 
train-00006-of-00010 
train-00007-of-00010 
train-00008-of-00010 
train-00009-of-00010 
validation-00000-of-00002 
validation-00001-of-00002 


-rw-r--nr-- 
-rw-r--nr-- 
-rw-r--nr-- 
-rw-r--nr-- 
-rw-r--nr-- 
-rw-r--nr-- 
-rw-r--nr-- 
-rw-r--nr-- 
-rw-r--nr-- 
-rw-r--nr-- 
-rw-r--nr-- 
-rw-r--nr-- 


1 3 
1 3 
1 3 
1 3 
1 3 
1 3 
1 3 
1 3 
1 3 
1 3 
1 3 
1 3 





PHA Pe eM beh. x EE S 





https://github.com/GilLevi/AgeGenderDeep Learning/Folds “ff. IX 
PMR, CATV AMINE WET SRI ATE, LAE 
例 ， 划 分 后 的 文件 如 下 : 


16669623QN66/1landmark_aligned face.1924.10335948845 0d22490234 o.jpg 6 
114841417(0N06/landmark aligned face.489.12077468164 8545fe9215 o.jpg 1 
7464014(N04/landmark aligned face.961.10109081873 8060c8b0a5 o.jpg 1 





也 就 是 以 “空格 ”划分 了 “图 片 名 称 路 径 ” 列 表 和 “性 别 ”。 


我 们 借助 这 个 文件 下 提供 的 gender_train.txt 和 gender_val.txt 中 的 图 片 
列表 把 原 有 的 Adience 数 据 集 处 理 成 TFRecords 文 件 ， 其 中 图 片 处 理 为 大 
小 为 256x256 的 JPEG 编 码 的 RGB 图 像 。 处 理 代 码 参 见 
https://github.com/dpressel/rude-carnie/blob/master/preproc.py 。 





下 面 就 来 介绍 一 下 关键 代码 。 表 先 为 每 一 个 样 例 建立 一 个 proto: 





def _convert_to_example(filename, image buffer, label, height, width): 


为 每 一 个 样 例 建 立 一 个 proto 

参数 如 下 : 
filename: 文件 名 《如 上 面 所 述 的 文件 名 称 路 径 列 表 ) 
image buffer: string，JPEG 编 码 的 RGB 图 像 
label: 标记 的 真实 值 
height: 目标 高 度 256 
width: 目标 宽度 256 























example = tf.train.Example(features-tf.train.Features(feature-( 
'image/class/label': _int64_feature(label), 
'image/filename': bytes feature(os.path.basename(filename)), 


'image/encoded': _bytes_feature(image buffer), 
'image/height':  int64 feature(height), 
'image/width':  int64 feature(width) 

})) 


return example 





随后 ， 将 tf.python_io.TFRecordWriter 写 入 TFRecords 文 件 ， 输 出 文 
件 为 output_file。 如 下 : 


writer = tf.python io.TFRecordWriter(output file) 

example - convert to example(filename, image buffer, label, height, width 
) 

writer.write(example.SerializeToString()) 

writer.close() 





4.10.3 节 曾 详细 讲解 过 如 何 从 文件 中 读 取 数 据 ， 并 生成 ITFRecords 文 





件 ， 本 市 是 一 个 实际 应 用 。 读 者 可 以 复习 一 下 4.10.3 闻 的 内 容 。 


这 样 ， 我 们 就 把 原始 数据 处 理 成 了 大 小 为 256x256 的 JPEG 编 码 的 
RGB 图 像 ， 生 成 TFRecords 文 件 ， 并 日 将 TFRecords 文 件 分 为 训练 集 和 测 
WE. 


10.5.2 ”构建 模型 


v 


这 里 的 年 龄 和 性 别 的 训练 模型 是 参考 Gil Levi fl Tal Hassner 的 论文 


(Age and Gender Classification Using Convolutional Neural Networks? 
UA 构建 的 。 年 龄 和 性 别 的 构建 模型 的 代码 
fEhttps://github.com/dpressel/rude-carnie/blob/master/model.py 中 。 


为 了 方便 生成 卷 积 网 络 ， 这 里 直接 使 用 TensorFlow 的 高 级 API 一 一 
tensorflow.contrib.slim，tensorflow.contrib.slim 是 对 常见 网 络 和 一 些 功 能 


的 封装 ， 调 用 起 来 很 方便 ， 避 免 了 目 己 写 大 量 代 码 ， 让 代码 结构 简洁 。 


方法 如 下 : 








def levi hassner(nlabels, images, pkeep, is training): 


weight decay 


= 0.0005 


weights _regularizer = tf.contrib.layers.12 regularizer(weight decay) 
with tf.variable scope("LeviHassner", "LeviHassner", [images]) as scope: 


with tf.contrib.slim.arg scope( 
[convolution2d, fully connected], 
weights regularizer-weights regularizer, 
biases initializer-tf.constant initializer(1.), 
weights initializer-tf.random normal initializer(stddev-0.005), 
trainable-True): 
with tf.contrib.slim.arg scope( 


1)): 
convi 
onv1') 
pool1 
normi 


conv2 


pool2 
norma 


[ convolution2d], 
weights initializer-tf.random normal initializer(stddev-0.0 


convolution2d(images, 96, [7,7], [4, 4], padding='VALID', 
biases initializer-tf.constant initializer(0.), scope-'c 


max pool2d(convi, 3, 2, padding-'VALID', scope-'pool1') 
tf.nn.local response normalization(pool1, 5, alpha-0.0001, 


beta-0.75, name='norm1' ) 
convolution2d(norm1, 256, [5, 5], [1, 1], padding-'SAME', 
scope-'conv2') 
max pool2d(conv2, 3, 2, padding-'VALID', scope-'pool2') 
tf.nn.local response normalization(pool2, 5, alpha-0.0001, 


beta-0.75, name-'norm2') 


conv3 = convolution2d(norm2, 384, [3, 3], [1, 1], biases_initializer 
tf.constant initializer(0.), padding-'SAME', scope='conv 


pool3 = max pool2d(conv3, 3, 2, padding-'VALID', scope-'pool3') 
flat = tf.reshape(pool3, [-1, 384*6*6], name='reshape' ) 

fulli = fully connected(flat, 512, scope-'full1') 

drop1 = tf.nn.dropout(full1, pkeep, name-'drop1') 

full2 = fully connected(dropi, 512, scope-'full2') 

drop2 = tf.nn.dropout(full2, pkeep, name-'drop2') 


with tf.variable scope('output') as scope: 
weights = tf.Variable(tf.random normal([512, nlabels], mean=0.0, stdde 


0.01), name-'weights') 
biases - tf.Variable(tf.constant(0.0, shape-[nlabels], dtype-tf.float3 
2), 
name-'biases') 
output - tf.add(tf.matmul(drop2, weights), biases, name-scope.name) 
return output 





10.5.3 ”训练 模型 


定义 好 网 络 模型 后 ， 接 下 来 就 进行 训练 。 训 练 模型 代码 
在 https://github.com/dpressel/rude-carnie/ blob/master/train.py 中 。 


下 面 就 以 “性 别 ” 的 训练 为 例 ， 修 改 文 件 中 的 相应 参数 ， 如 
train_dir。 训 练 过 程 的 关键 代码 如 下 : 





def main(argv=None): 
with tf.Graph().as_default(): 


model fn = select model(FLAGS.model type) 
# 打开 元 数据 文件 md.json， 这 个 文件 是 在 预 处 理 数 据 时 生成 的 。 找 出 nlabels 和 epo 




















ch 的 大 小 


ze, 


input file = os.path.join(FLAGS.train dir, 'md.json') 
print(input file) 
with open(input file, 'r') as f: 

md = json.load(f) 


images, labels, _ = distorted_inputs(FLAGS.train_dir, FLAGS.batch si 


FLAGS. image size, FLAGS.num_ 
preprocess threads) 
logits = model fn(md['nlabels'], images, 1-FLAGS.pdrop, True) 
total_loss = loss(logits, labels) 


train_op = optimizer(FLAGS.optim, FLAGS.eta, total_loss) 
saver = tf.train.Saver(tf.global variables()) 


summary op = tf.summary.merge all() 


sess - tf.Session(config-tf.ConfigProto( 
log device placement-FLAGS.log device placement)) 


tf.global variables initializer().run(session-sess) 





# 本 例 可 以 输入 预 训 练 模型 Inception V3， 此 处 可 以 用 来 微调 Inception V3 
if FLAGS.pre_model: 
inception_variables = tf.get_collection( 
tf.GraphKeys.VARIABLES, scope="Inception V3") 
restorer = tf.train.Saver(inception_variables) 
restorer.restore(sess, FLAGS.pre_model) 


if FLAGS.pre_checkpoint_path: 
if tf.gfile.Exists(FLAGS.pre checkpoint path) is True: 
print('Trying to restore checkpoint from %s' % FLAGS.pre checkpoin 


t path) 


ue) 


restorer - tf.train.Saver() 

tf.train.latest checkpoint(FLAGS.pre checkpoint path) 

print('%s: Pre-trained model restored from Xs' % 
(datetime.now(), FLAGS.pre checkpoint path)) 





# 将 ckpt 文 件 存储 在 run-{fpid} 目 录 中 
run_dir = '%s/run-%d' % (FLAGS.train dir, os.getpid()) 





checkpoint path = '%s/%s' % (run dir, FLAGS.checkpoint) 
if tf.gfile.Exists(run dir) is False: 
print('Creating %s' % run dir) 
tf.gfile.MakeDirs(run dir) 


tf.train.write graph(sess.graph def, run dir, 'model.pb', as text-Tr 


tf.train.start_queue_runners(sess=sess) 


summary_writer = tf.summary.FileWriter(run_dir, sess.graph) 
steps per train epoch = int(md['train counts'] / FLAGS.batch size) 
num steps - FLAGS.max steps if FLAGS.epochs « 1 else FLAGS.epochs * 


steps per train epoch 
print('Requested number of steps [%d]' % num steps) 


for step in xrange(num steps): 
start time - time.time() 
., loss value = sess.run([train op, total loss]) 
duration - time.time() - start time 


assert not np.isnan(loss value), 'Model diverged with loss - NaN' 


if step X 10 -- 
num examples per step - FLAGS.batch size 
examples per sec - num examples per step / duration 
sec per batch - float(duration) 


format str = ('%s: step Xd, loss = %.3f (%.1f examples/sec; %.3f 
'sec/batch) ') 


print(format str % (datetime.now(), step, loss value, 
examples per sec, sec per batch)) 








# 每 16 步 记录 一 次 摘要 文件 ， 保 存 一 个 检查 点 文件 

if step % 10 == 
summary_str = sess.run(summary_op) 
summary_writer.add_summary(summary_str, step) 


if step % 10 == @ or (step + 1) == num_steps: 
saver.save(sess, checkpoint_path, global_step=step) 





进行 了 100 次 迭代 后 生成 的 检查 点 文件 位 于 run-{pid}( 进 程 写 ) 的 


目录 中 ， 如 下 : 


run-28892 $ tree -L 1 


checkpoint 

checkpoint -100.data-00000-of-@0001 
checkpoint -10@. index 
checkpoint-100.meta 
checkpoint-60.data-00000-0of-00001 
checkpoint -6@. index 
checkpoint-60.meta 
checkpoint-70.data-00000-0of-00001 
checkpoint-70.index 
checkpoint-70.meta 

checkpoint -80.data-00000-0of-00001 
checkpoint-80.index 
checkpoint-80.meta 
checkpoint-90.data-00000-0of-00001 
checkpoint -9@. index 
checkpoint-90.meta 
events.out.tfevents .1489700787 .baidudeMacBook-Pro.local 
model.pb 


c 
I-—- 
I-—- 
c 
I-—- 
I[-—- 
[-— 
c 
m 
c 
c 
c 
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c 
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LL 





10.5.4 ”验证 模型 


接着 我 用 自己 的 一 张 图 片 〈 如 图 10-6 所 示 ) 来 看 看 我 们 训练 的 模型 
是 否 准 确 。 源 代码 位 于 https://github.com/dpressel/rude- 


carnie/blob/master/guess.py 。 





图 10-6 


关键 代码 如 下 : 





def classify(sess, label list, softmax_output, coder, images, image file): 


print('Running file %s' % image file) # 输入 的 图 片 文件 

image batch - make batch(image file, coder, not FLAGS.single look) 

batch results = sess.run(softmax output, feed dict={images:image batch.e 
val()}) 

output = batch results[0] 

batch sz = batch results.shape[0] 

for i in range(1, batch sz): 

output = output + batch results[i] 


output /- batch sz 

best = np.argmax(output) # 最 可 能 的 性 别 分 类 

best choice = (label list[best], output[best]) 
print('Guess @ 1 %s, prob = %.2f' % best choice) 


nlabels = len(label list) 
return best_choice 


结果 非常 好 ， 它 输出 了 性 别 是 “F”: 


Guess @ 1 F, prob = 0.59 





微软 也 推出 了 脸 部 图 片 识别 性 别 和 年 龄 的 网 站 Chttp://how-old.net/ 
) ， 非 常 好 玩 。 除 了 通过 图 片 识 别 出 年 龄 和 性 别 ， 这 个 网 站 还 可 以 根据 
问题 搜索 图 片 ， 结 果 相 当 准 确 。 例 如 ， 我 搜索 了 “士大夫 ”， 会 得 到 图 
10-7 所 示 的 结果 。 








&9 How-Old.net 





图 10-7 


10.6 ”小结 


本 章 主 要 讲解 了 TensorFlow 在 工业 界 CARR AIA TaD) 的 应 用 。 本 
章 首先 介绍 了 人 脸 识别 的 原理 及 技术 流程 ， 人 脸 识别 的 分 类 ， 接 痢 结 合 
最 常见 的 案例 ， 讲 解 了 用 TensorFlow 实 现 人 脸 检 测 和 从 人 脸 识 别 性 别 和 
年 龄 。 





本 章 介 绍 了 人 工 智 能 在 视觉 领域 的 主要 应 用 ， 人 工 智能 主要 的 关注 
点 在 于 能 使 计算 机 模拟 人 的 感官 ， 正 如 人 的 “ 眼 耳 鼻 口 舌 ?*， 人 工 智 能 在 
目 然 语 言 处 理 领 域 也 有 很 大 的 突破 。 我 们 在 下 一 章 会 介绍 。 








[1] 本 图 出 自 《Deep Learning Face Representation from Predicting 
10,000 Classes) : http://mmlab.ie.cuhk. edu.hk/pdf/ YiSun_CVPR14.pdf 。 


[] 本 节 代 码 参 考 https://github.com/davidsandberg/facenet 。 
[3]  https://arxiv.org/abs/1503.03832 
[4] LEFW 数 据 集 的 下 载 地 址 为 http:/vis-www.cs.Uumass.eduylfw/y 。 


[5] 
https://drive.google.com/file/d/OB5MzpY9kBtD VTGZjcWkzT3pldDA/viev 


[6] https://www.microsoft.com/en-us/research/project/ms-celeb-1m- 


challenge-recognizing-one-million-celebrities-real-world/ 


[7] “参考 百度 百科 “十 折 交 叉 验 证 ”。 


[8] A WAS 4 htps://github.com/dpressel/rude-camie 。 

[9]  http://www.openu.ac.il/home/hassner/Adience/data.htmlztagegender 
[10]  https://www.flickr.com/ 

[11]  https://github.com/dpressel/rude-carnie/blob/master/preproc.py 


[12]  http://citeseerx.ist.psu.edu/viewdoc/download? 


doi=10.1.1.722.9654&rep=rep1&type=pdf 


第 11 章 ” 目 然 语言 处 理 


自然 语言 处 理 UJ 是 计算 机 科学 领域 与 人 工 智能 领域 中 的 另 一 个 重 
要 方 铝 ， 其 中 很 重要 的 一 点 束 是 语音 识别 (speech recognition) 。 语 首 
识别 要 解决 的 问题 是 让 计算 机 能 够 “ 听 懂 ”人 类 的 语音 ， 将 语音 中 包含 的 
文字 信息 “提取 ”出 来 。 














与 语言 相关 的 技术 可 以 应 用 在 很 多 地 方 。 例 如 ， 日 本 的 富国 生命 保 
险 公司 花费 170 万 美元 安装 人 工 智 能 系统 ， 把 客户 的 语言 转换 为 文本 ， 
并 分 析 这 些 词 是 正面 的 还 是 负面 的 。 这 些 目 动 化 工作 将 帮助 人 类 更 快 地 
处 理 保险 业务 。 除 此 之 外 ， 现 在 的 人 工 智 能 公司 也 在 把 智能 客服 作为 重 
点 的 研 完 方 癌 。 














与 图 像 识别 不 同 ， 在 自然 语言 处 理 中 输入 的 往往 是 一 段 语 音 或 者 一 
段 文 字 ， 输 入 数据 的 长 短 是 不 确定 的 ， 并 且 它 与 上 下 文 有 很 密切 的 关 
系 ， 所 以 常用 的 是 循环 神经 网 络 (recurrent neural network, RNN) 模 
型 。 


11.1 模型 的 选择 


下 面 我 们 就 来 介绍 使 用 不 同 输入 和 不 同 数 据 时 ， 分 别 适用 哪 种 模型 
以 及 如 何 应 用 。 





在 图 11-1 中 ， 每 一 个 矩形 是 一 个 同 量 ， 篆 头 则 表示 函数 (如 算 阵 相 
J.) 。 最 下 面 一 行为 输入 向 量 ， 最 上 面 一 行为 输出 向 量 ， 中 间 一 行 是 
RNN 的 状态 。 





图 11-1 中 从 元 到 右 分 别 表 示 以 下 几 种 情况 。 


(1) 一 对 一 : 没有 使 用 RNN， 如 Vanilla 模 型 ， 从 固定 大 小 的 输入 
得 到 固定 大 小 输出 (应 用 在 图 像 分 类 ) 。 


(2) 一 对 多 : 以 序列 输出 (应 用 在 图 片 描述 ， 输 入 一 张 图 片 输出 
一 段 文字 序列 ， 这 种 往往 需要 CNN 和 RNN 相 结合 ， 也 就 是 图 像 和 语言 
相 结 合 ， 详 见 第 12 章 〉。 


图 11-1 
(3) 多 对 一 : 以 序列 输入 (应 用 在 情感 分 析 ， 输 入 一 段 广 字 ， 然 
后 将 它 分 类 成 积极 或 者 消极 情感 ， 如 淘宝 下 某 件 商品 的 评论 分 类 ) ， 如 
使 用 LSTM。 





(4) 多 对 多 : 异步 的 序列 输入 和 序列 输出 《应 用 在 机 喜 翻 译 ， 如 
一 个 RNN 读 取 一 条 英文 语句 ， 然 后 将 它 以 法 语 形式 输出 ) 。 


(5) 多 对 多 : 同步 的 序列 输入 和 序列 输出 〈 应 用 在 视频 分 类 ， 对 
视频 中 每 一 帧 打 标 记 ) 。 





我 们 注意 到 ， 在 上 述 讲解 中 ， 因 为 中 间 RNN 的 状态 的 部 分 是 固定 
的 ， 可 以 多 次 使 用 ， 所 以 不 需要 对 序列 长 度 进 行 预先 特定 约束 。 更 详细 
的 讨论 参见 Andrej Karpathy 的 文章 《The Unreasonable Effectiveness of 


Recurrent Neural Networks) !2! , 


自然 语言 处 理 通 向 包括 语音 合成 〈 将 文字 生成 语音 ) 、 语 音 识别 、 





声 纹 识别 〈 声 纹 鉴 权 ) ， 以 及 它们 的 一 些 扩展 应 用 ， 以 及 文本 处 理 ， 如 
分 词 、 情 感 分 析 、 文 本 挖掘 等 。 


11.2 ”英文 数字 语音 识别 BI 


本 市 我 们 就 用 语音 识别 的 例子 来 说 明 TensorFlow 在 上 自然 语言 处 理 上 
的 应 用 。 这 里 我 们 将 使 用 TensorFlow 机 器 学 习 库 ， 用 20 行 Python 代 码 创 
召 一 个 超人 简单 的 语 首 识别 器 。 





在 这 个 例子 中 ， 我 们 构建 一 个 LSTM 循 环 神经 网 络 ， 用 TFLearn 第 三 
方 库 来 训练 一 个 英文 数字 口语 数据 集 。 


我 们 采用 spoken numbers pcm 数 据 集 内 ， 这 个 数据 集中 包含 许多 人 
阅读 的 0 一 9 这 几 个 数字 的 英文 的 音频 。 分 为 男声 和 女声 ， 一 段 音 频 
Cwav 文 件 ) 中 只 有 一 个 数字 对 应 的 英文 的 声音 。 标 识 方法 是 { 数 字 } 人 
4 xxx. WF: 





9 Vicki 400.wav 
9 Victoria 100.wav 





下 面 我 们 就 来 训练 一 个 简单 的 英文 口语 数字 识别 模型 ， 在 普通 Mac 
上 训练 ， 使 其 能 够 在 一 分 钟 内 达到 98% 的 准确 率 。 


11.2.1 定义 输入 数据 并 预 处 理 数 据 
首先 ， 需 要 将 语 首 处 理 成 能 够 读 取 的 矩阵 形式 。 这 里 面 用 到 了 梅 尔 


频率 倒 谱 系数 (Mel frequency cepstral coefficents, MFCC) 特征 问 量 ， 
MFCC 是 一 种 在 自动 语音 和 说 话 人 识别 中 广泛 使 用 的 特征 。 


import tflearn 
import speech data 
import tensorflow as tf 


learning rate - 0.0001 
training iters = 300000 # 迭代 次 数 
batch size - 64 


width = 20 # MFCC 特 征 
height = 80 # 最 大 发 音 长 度 
classes = 10 # 数字 类 别 





batch = word batch = speech data.mfcc batch generator(batch size) # 生 
一 批 MFCC 语 音 

X, Y = next(batch) 

trainX, trainY = X, Y 

testX, testY - X, Y 





对 语言 做 分 帧 、 取 对 数 、 逆 矩阵 等 操作 后 ， 生 成 的 MFCC 就 代表 这 


个 语音 的 特征 。 
11.2.2 ”定义 网 络 模型 


读者 会 发 现 ， 用 tflearn 真 是 很 简洁 ， 只 用 4 行 代码 就 定义 好 了 一 个 
LSTM 模 型 : 





net = tflearn.input_data([None, width, height]) 

net = tflearn.lstm(net, 128, dropout-0.8) 

net = tflearn.fully connected(net, classes, activation='softmax' ) 

net = tflearn.regression(net, optimizer='adam', learning rate=learning rat 


e, 


loss-'categorical crossentropy') 





11.2.3 ”训练 模型 
接 下 来 训练 模型 ， 并 把 模型 存储 下 来 : 


model = tflearn.DNN(net, tensorboard verbose-0) 
while 1: #training iters 
model.fit(trainX, trainY, n epoch-10, validation set-(testX, testY), 
show metric-True,batch size-batch size) 
_y=model.predict(X) 
model.save("tflearn.lstm.model") 





11.2.4 ”预测 模型 


任意 输入 一 个 语 首 文件 ， 进 行 预 测 : 





demo file = "5 Vicki 260.wav" 

demo-speech data.load wav file(speech data.path + demo file) 
result-model.predict([demo]) 

result=numpy.argmax(result) 


print("predicted digit for %s : result = %d "%(demo_file,result) ) 


Pt 
结果 输出 如 下 ; 


predicted digit for 5 Vicki 260.wav : result = 5 





结 末 很 准确 ， 确 实 这 个 音频 的 数字 就 是 “5”。 


语音 识别 可 以 用 在 智能 输入 法 、 会 议 的 快速 录入 、 语 音 控 制 系统 、 
灸 能 家 居 等 领域 。 除 了 语音 识别 之 外 ， 如 果 对 方 能 给 出 应 答 就 更 好 了 ， 
这 就 是 下 面 要 讲 的 “入 能 聊天 机 器 人 ?”。 


11.3 AREWIAALAA 





现在 很 多 公司 都 把 未 来 方向 压 在 了 “ 目 然 语言 的 人 机 交互” 上 ， 而 这 


其 实 就 是 “智能 聊天 机 如 人 ”。 例 如， 苹果 的 Sirii、 微 软 的 Cortana 与 小 


Uk. 


we 


Google Now, AERE WAS bye A E #8 Amazon Echo 内 置 的 
助手 Alexa、Facebook 推 出 的 语音 助手 M 等 。 智 能 聊天 机 器 人 的 商业 





价值 有 两 个 方面 。 


通过 和 用 户 的 “语音 机 器 人 ”的 对 话 ， 将 用 户 引 导 到 对 应 的 服务 上 
面 。 

作为 今后 智能 硬件 和 智能 家 居 的 嵌入 式 应 用 。 例 如 ， 当 用 户 和 一 个 
智能 椅子 进行 对 话 时 ， 用 户 说 :“ 椅 子 ， 你 调 高 一 点 ， 把 靠背 放 
平 。” 这 个 椅子 的 语音 系统 就 可 能 搭载 了 上 述 大 公司 开发 的 智能 聊 
天 机 器 人 系统 。 





智能 聊天 机 器 人 的 发 展 经 历 了 3 代 不 同 的 技术 。 


第 一 代 是 基于 特征 工程 。 有 大 量 的 逻辑 判断 ， 如 if then; else then. 
第 二 代 是 基于 检索 库 。 给 定 一 个 问题 或 者 聊天 ， 从 检索 库 中 找到 与 
己 有 答案 最 匹配 的 答案 。 

第 三 代 是 基于 深度 学 习 。 采 用 seq2seq+Attention 模 型 ， 经 过 大 量 的 
训练 ， 根 据 输入 生成 相应 的 输出 。 

















下 面 我 们 束 来 看 看 基于 深度 学 习 的 聊天 机 器 人 的 seq2seq+Attention 


模型 原理 和 构建 方法 。 


11.3.1 原理 


seq2seq 模 型 是 一 个 翻译 模型 ， 主 要 是 把 一 个 序列 翻译 成 男 一 个 序 
列 。 它 的 基本 思想 是 用 两 个 RNNLM， 一 个 作为 编码 器 ， 另 一 个 作为 解 
码 器 ， 组 成 RNN 编 码 器 -解码 器 。 


在 文本 处 理 领 域 ， 我 们 常用 编码 器 -解码 器 Cencoder-decoder) 框 
架 ， 如 图 11-2 所 示 。 


图 11-2 


这 是 一 种 适合 处 理由 一 个 上 下 文 CcontexO 生成 一 个 目标 
(target) 的 通用 处 理 模型 。 因 此 ， 对 于 一 个 句子 对 <X ,了 Y>， 当 输入 给 
定 的 句子 X ， 通 过 编码 器 -解码 器 框架 来 生成 目标 句子 Y。X 和 Y 可 以 是 
不 同 语言 ， 这 就 是 机 器 翻译 ; XV 可 以 是 对 话 的 问 句 和 答 句 ， 这 就 是 
聊天 机 器 人 ; XX 和 Y 了 可 以 是 图 片 和 这 个 图 片 的 对 应 描述 (这 就是 第 12 章 
要 讲 的 看 图 说 话 ) 。 


X 由 x | 、x ,等 单词 序列 组 成 ， 7 也 由 y， 、y , 等 单词 序列 组 成 。 编 ? 
器 对 输入 的 X 进行 编码 ， 生 成 中 间 语义 编码 C ， 然 后 解码 器 对 中 间 语义 
编码 C 进行 解码 ， 在 每 个 i 时刻， 结合 已 经 生成 的 y 1 ,y > ,.…,y i 的 历史 
言 息 生 成 。 但 是 ， 这 个 框架 有 一 个 缺点 ， 就 是 生成 的 句子 中 每 一 个 词 
采用 的 中 间 语 义 编码 是 相同 的 ， 都 是 C 。 因 此 ， 在 句子 比较 短 的 时 候 ， 

还 能 比较 贴切 ， 句 子 长 时 ， 就 明显 不 合 语义 了 。 








在 实际 实现 聊天 系统 的 时 候 ， 一 般 编 码 器 和 解码 器 都 采用 RNN 模 型 
以 及 RNN 模 型 的 改进 模型 LSTM。 当 句子 长 度 超过 30 以 后 ，LSTM 模 型 


的 效果 会 急剧 下 降 ， 一 般 此 时 会 引入 Attention 模 型 ， 对 长 句子 来 说 能 够 
明显 提升 系统 效果 。 


Attention 机 制 是 认 知 心理 学 层面 的 一 个 概念 ， 它 是 指 当 人 在 做 一 件 
事情 的 时 候 ， 会 专注 地 做 这 件 事 而 忽略 周围 的 其 他 事 。 例 如 ， 人 和信 在 专注 
地 看 这 本 书 ， 会 忽略 劳 边 人 说 话 的 声音 。 这 种 机 制 应 用 在 聊天 机 器 人 、 
机 器 翻译 等 领域 ， 就 把 源 句 子 中 对 生成 句子 重要 的 关键 词 的 权重 提高 ， 
产生 出 更 准确 的 应 答 。 


增加 了 Attention 模 型 的 编码 器 -解码 器 框架 如 图 11-3 所 示 。 


现在 的 中 间 语义 编码 变 成 了 不 断 变化 的 C; ， 能 够 生产 更 准确 的 目 
DA 


图 11-3 
11.3.2 最 佳 实践 
下 面 就 来 做 一 个 智能 聊天 机 器 人 。 D! 


这 里 我 们 使 用 康 奈 尔 大 学 的 Corpus 数 据 集 [651 (Cornell Movie 
Dialogs Corpus) ， 里 面 含有 600 多 部 电影 的 对 白 。 对 日 示例 如 下 : 








L1045 +++$+++ UO +++$+++ MO +++$+++ BIANCA +++$+++ They do not! 
L1044 +++$+++ U2 +++$+++ me +++$+++ CAMERON +++$+++ They do to! 


[L SE 
我 们 首先 关注 如 何 处 理 聊天 数据 ， 一 般 步骤 如 下 。 


(1) 先 把 数据 集 整理 成 <* 问 ?和 “ 答 ” 的 文件 ， 生 成 .enc〈 问 句 ) 
和 .dec《〈 答 句 ) 文件 ， 如 下 : 


上 一 test.dec # 测试 集 答 名 
上 一 test.enc st 测试 集 问 句 
一 一 train.dec # 训练 集 答 句 
t— train.enc # 训练 集 问 句 








train.enc 问 句 示 例如 下 : 


Gosh, if only we could find Kat a boyfriend... 
C'esc ma tete. This is my head 
How is our little Find the Wench A Date plan progressing? 





(2) 创建 词汇 表 ， 然 后 把 问 句 和 答 句 转换 成 对 应 的 id 形 式 。 词 汇 
表 的 文件 里 面 有 2 万 个 词汇 ， 如 下 : 











I—— vocab20000.dec # 答 句 的 词汇 表 
L— — vocab20000.enc # 问 句 的 词汇 表 





ee 


词汇 表 的 内 容 如 下 : 





其 中 _GO、_EOS、_UNK、_PAD 是 在 seq2seq 模 型 中 使 用 的 特殊 标 





记 ， 用 来 填充 标记 对 话 : GO 标记 对 话 开 始 ; _EOS 标 记 对 话 结束 ; 
_UNK 标 记 未 出 现在 词汇 表 中 的 字符 ， 用 来 奉 换 稀 有 词汇 _PAD 是 用 来 
填充 序列 ， 保 证 批 次 中 的 序列 有 相同 的 长 度 。 


转换 成 的 ids 文 件 如 下 : 


I—— test.enc.ids20000 
[—— train.dec.ids20000 


L—— train.enc.ids20000 








问 句 和 答 句 转换 成 的 ids 文 件 中 ， 每 一 行 是 一 个 问 句 或 答 句 ， 每 一 行 
中 的 每 一 个 id 代 表 问 句 或 答 句 中 对 应 位 置 的 词 ， 格 式 如 下 : 





185 4 4 4 146 131 5 1144 39 313 53 102 1176 12042 4 2020 9 2691 9 
792 15 4 

7518 4 

2993 49 88 109 54 13 765 466 252444 





(3) 采用 编码 器 -解码 器 框架 进行 训练 。 
1. 定义 训练 参数 


这 里 ， 我 们 将 参数 写 到 一 个 专门 的 文件 seq2seq.ini 中 ， 如 下 : 





[strings] 

# 模式 : train, test, serve 
mode = train 

train enc = data/train.enc 


train dec = data/train.dec 

test enc = data/test.enc 

test dec = data/test.enc 

# 模型 文件 和 词汇 表 的 存储 路 径 
working directory = working dir/ 
[ints] 

# 词汇 表 大 小 


enc vocab size = 20000 














dec_vocab_size = 20000 

# LSTM 层 数 

num_layers = 3 

# 每 层 大 小 ， 可 以 取 值 : 128, 256, 512, 1024 
layer_size = 256 





max_train data size = 0 

batch size = 64 

# 每 多 少 次 迭代 存储 一 次 模型 

steps per checkpoint = 300 

[floats] 

learning rate = 0.5 # 学 习 速 率 
learning rate decay factor = 0.99 # 学 习 速 率 下 降 系 数 
max gradient norm = 5.0 








2. 定义 网 络 模型 


D% 


下 面 来 定义 seq2seq 模 型 ， 该 模型 的 代码 在 seq2seq_model.py 中 ， 
个 代码 基于 TensorFlow 0.12 版 本 ， 读 者 可 以 重新 安装 试验 。 定 义 一 
seq2seqt+Attention 模 型 类 WH ， 里 面 主 要 包含 3 个 函数 : 


OD 初始 化 模型 的 函数 (init ) ; 
(2) 训练 模型 的 函数 (step) ; 
(3) 获取 下 一 批 次 训练 数据 的 函数 Cget_batch) 。 


我 们 首先 来 看 如 何 初始 化 模型 ， 如 下 : 





class Seq2SeqModel(object): 


def _ init (self, source vocab size, target vocab size, buckets, size, 
num layers, max gradient norm, batch size, learning rate, 


es, 


learning rate decay factor, use lstm-False, 
num samples-512, forward only-False): 


""" 构 建 模 开 


参数 : 

source vocab size: 问 句 词汇 表 大 小 

target vocab size: 答 句 词汇 表 大 小 

buckets: (I,0)， 其 中 I 指定 最 大 输入 长 度 ，0 指 定 最 大 输出 长 度 
size: 层 的 神经 元 数量 
num_layers: 模型 层 数 
max gradient norm: 梯度 将 被 削减 到 最 大 的 规范 
batch size: 批 次 大 小 。 用 于 训练 和 预测 的 批 次 大 小 ， 可 以 不 同 
learning rate: 学 习 速 率 
learning rate decay factor: 调整 学 习 速 率 
use lstm: 使 用 LSTM 单元 来 代替 GRU 单元 
num_samples: 使 用 softmox 的 样本 数 

forward only: 是 否 仅 构 建 前 向 传播 




















































































































self.source vocab size = source vocab size 

self.target vocab size - target vocab size 

self.buckets - buckets 

self.batch size - batch size 

self.learning rate - tf.Variable(float(learning rate), trainable-False) 

self.learning rate decay op - self.learning rate.assign( 
self.learning rate * learning rate decay factor) 

self.global step - tf.Variable(0, trainable-False) 


output projection - None 

softmax loss function - None 

# 如 果 样 本 量 比 词汇 表 的 量 小 ， 那 么 要 用 抽样 的 softmax 

if num_samples > 6 and num_samples < self.target_vocab_size: 

= tf.get_variable("proj_w", [size, self.target_vocab_size]) 

w_t = tf.transpose(w) 
b = tf.get_variable("proj_b", [self.target_vocab_size]) 
output_projection = (w, b) 






































def sampled_loss(inputs, labels): 
labels = tf.reshape(labels, [-1, 1]) 
return tf.nn.sampled softmax loss(w t, b, inputs, labels, num sampl 


self.target vocab size) 
softmax loss function - sampled loss 


# 构建 RNN 
single cell = tf.nn.rnn cell.GRUCell(size) 
if use lstm: 
single cell - tf.nn.rnn cell.BasicLSTMCell(size) 


cell = single cell 
if num_layers > 1: 
cell = tf.nn.rnn_cell.MultiRNNCell( [single cell] * num layers) 


# Attention 模 型 
def seq2seq f(encoder inputs, decoder inputs, do decode): 
return tf.nn.seq2seq.embedding attention seg2seq( 
encoder inputs, decoder inputs, cell, 
num encoder symbols-source vocab size, 
num decoder symbols-target vocab size, 
embedding size-size, 
output projection-output projection, 
feed previous-do decode) 





# 给 模型 填充 数据 
self.encoder inputs = [] 
self.decoder inputs = [] 
self.target_weights = [] 
for i in xrange(buckets[-1][0]): 
self.encoder inputs.append(tf.placeholder(tf.int32, shape-[None], 
name="encoder{0}".format(i) )) 

















for i in xrange(buckets[-1][1] + 1): 
self.decoder_inputs.append(tf.placeholder(tf.int32, shape=[None], 
name="decoder{0}".format(i) ) ) 
self.target weights.append(tf.placeholder(tf.float32, shape=[None], 
name-"weight(0)".format(i))) 


# targets 的 值 是 解码 器 偏 移 1 位 
targets = [self.decoder_inputs[i + 1] 
for i in xrange(len(self.decoder_inputs) - 1)] 





# 训练 模型 的 输出 
if forward_only: 
self.outputs, self.losses = tf.nn.seq2seq.model with buckets( 
self.encoder inputs, self.decoder inputs, targets, 
self.target weights, buckets, lambda x, y: seq2seq f(x, y, True), 
softmax loss function-softmax loss function) 


if output projection is not None: 
for b in xrange(len(buckets)): 
self.outputs[b] = [ 
tf.matmul(output, output projection[0]) + output projection[1] 
for output in self.outputs[b] 
] 
else: 
self.outputs, self.losses = tf.nn.seq2seq.model with buckets( 
self.encoder inputs, self.decoder inputs, targets, 


self.target_weights, buckets, 
lambda x, y: seq2seq_f(x, y, False), 
softmax loss function-softmax loss function) 














# 训练 模型 时 ， 更 新 梯度 
params = tf.trainable variables() 
if not forward_only: 
self.gradient_norms = [] 
self.updates = [] 
opt = tf.train.GradientDescentOptimizer(self.learning rate) 
for b in xrange(len(buckets)): 
gradients - tf.gradients(self.losses[b], params) 
clipped gradients, norm - tf.clip by global norm(gradients, 
max gradient norm) 





self.gradient norms.append(norm) 
self.updates.append(opt.apply gradients( 
zip(clipped gradients, params), global step-self.global step)) 


self.saver - tf.train.Saver(tf.all variables()) 











接着 ， 定 义 运行 模型 的 每 一 步 : 





def step(self, session, encoder_inputs, decoder_inputs, target_weights, 
bucket_id, forward_only): 

""" 运 行 模型 的 每 一 步 

参数 : 
session: tensorflow session 
encoder inputs: 问 句 向 量 序列 
decoder_inputs: 答 句 向 量 序列 
target_weights: target weights 
bucket id: 输入 的 bucket_id 
forward only: 是 否 只 做 前 向 传播 























encoder_size, decoder_size = self.buckets[bucket_id] 
if len(encoder_inputs) != encoder_size: 
raise ValueError("Encoder length must be equal to the one in bucket," 
" *d !- *d." % (len(encoder inputs), encoder size)) 


if len(decoder_inputs) != decoder_size: 
raise ValueError("Decoder length must be equal to the one in bucket," 
" *d !- *d." % (len(decoder inputs), decoder size)) 
if len(target weights) !- decoder size: 
raise ValueError("Weights length must be equal to the one in bucket," 
" *d !- 4d." % (len(target weights), decoder size)) 




















# 输入 填充 

input feed = {} 

for 1 in xrange(encoder size): 
input_feed[self.encoder_inputs[1].name] = encoder_inputs[1] 

for 1 in xrange(decoder_size): 
input feed[self.decoder inputs[1].name] = decoder_inputs[1] 
input feed[self.target weights[1].name] = target weights[l] 


last target = self.decoder inputs[decoder size].name 
input feed[last target] - np.zeros([self.batch size], dtype-np.int32) 








# 输出 填充 : 与 是 否 有 后 同 传播 有 关 
if not forward_only: 
output feed = [self.updates[bucket id], 
self.gradient norms[bucket id], 
self.losses[bucket id]] 






































else: 
output feed - [self.losses[bucket id]] 
for 1 in xrange(decoder size): 
output feed.append(self.outputs[bucket id][1]) 


outputs = session.run(output feed, input feed) 
if not forward only: 
return outputs[1], outputs[2], None  # 有 后 向 传播 下 的 输出 : 梯度， 损失 值 ， 
None 
else: 
return None, outputs[@], outputs[1:] # 仅 有 前 向 传播 下 的 输出 : None, fi 
失 值 ，outputs 














接 下 来 是 get_batch 函 数 ， 它 的 主要 作用 是 为 训练 的 每 一 步 Cstep) 
产生 一 个 批 次 的 数据 。 


def get_batch(self, data, bucket_id): 























用 


这 个 函数 的 作用 是 从 指定 的 桶 中 获取 一 个 批 次 的 随机 数据 ， 在 训练 的 每 步 〈step) 中 使 











参数 : 
data: 长 度 为 (self.buckets) 的 元 组 ， 其 中 每 个 元 素 都 包含 用 于 创建 批 次 的 输入 
和 输出 数据 对 的 列表 
bucket id: 整数 ， 从 哪个 bucket 获 取 本 批 次 


返回 : 
一 个 包含 三 项 的 元 组 (encoder_inputs, decode inputs, target weights) 

















3. 训练 模型 


修改 seq2seq.ini 文 件 中 的 mode 值 ， 当 值 为 “train”* 时 ， 可 以 运行 
execute.py 进 行 训练 。 关 键 逻辑 代码 如 下 : 





def train(): 
# 准备 数据 集 
print("Preparing data in %s" % gConfig['working directory']) 


enc train, dec train, enc dev, dec dev, , _ = data utils.prepare custom 


_data 
(gConfig[ ‘working directory'],gConfig[ 'train_enc'],gConfig[ ‘train 


_dec'], 
gconfig['test enc'],gConfig['test dec'],gConfig['enc vocab size'], 


gconfig['dec vocab size']) 


config - tf.ConfigProto() 
config.gpu options.allocator type = 'BFC' 


with tf.Session(config-config) as sess: 
# 构建 模型 
print("Creating %d layers of %d units." % (gConfig['num layers'], gConf 
ig 
['layer size'])) 
model - create model(sess, False) 














# 把 数据 读 入 桶 (bucket) 中， 并 计算 桶 的 大 小 
print ("Reading development and training data (limit: %d)." 
% gConfig['max train data size']) 
dev set - read data(enc dev, dec dev) 
train set - read data(enc train, dec train, gConfig['max train data siz 








e']) 


ze 


train_bucket_sizes = [len(train_set[b]) for b in xrange(len(_buckets))] 
train_total_size = float(sum(train_bucket_sizes)) 
train_buckets_scale = [sum(train_bucket_sizes[:i + 1]) / train_total_si 


for i in xrange(len(train_bucket_sizes))] 


# 开始 训练 循环 

step time, loss = 0.0, 0.0 
current step - 0 

previous losses - [] 

while True: 














# 随机 生成 一 个 8-1 的 数 ， 在 生成 bucket_id 中 使 用 

random_number_@1 = np.random.random_sample() 

bucket id = min([i for i in xrange(len(train buckets scale)) 
if train buckets scale[i] > random number 01]) 








# 获取 一 个 批 次 的 数据 ， 并 进行 一 步 训 练 
start_time = time.time() 
encoder_inputs, decoder_inputs, target_weights = model.get_batch( 
train_set, bucket_id) 
_, Step loss, _ = model.step(sess, encoder inputs, decoder inputs, 
target weights, bucket id, False) 
step time += (time.time() - start time) / gConfig['steps per checkpoi 





nt'] 


loss 4- step loss / gConfig['steps per checkpoint'] 
current step += 1 





# 保存 检查 点 文件 ， 打 印 统计 数据 
if current step % gConfig['steps per checkpoint'] == e: 


perplexity - math.exp(loss) if loss « 300 else float('inf') 
print ("global step %d learning rate %.4f step-time %.2f perplexity 


"*.2f" % (model.global step.eval(), model.learning rate.eval() 


step time, perplexity)) 
# 如 果 损 失 值 在 最 近 3 次 内 没有 再 降低 ， 就 减 小 学 习 率 ， 
if len(previous_losses) > 2 and loss > max(previous_losses[-3:]): 
sess.run(model.learning rate_decay_op) 
previous_losses.append(loss) 


# RPE ROC, FETT Bas AK A 
































checkpoint path = os.path.join(gConfig[ ‘working directory'], "seg2se 
q.ckpt") 


model.saver.save(sess, checkpoint path, global step-model.global ste 
p) 


step time, loss - 0.0, 0.0 





4. 验证 模型 


修改 seq2seq.ini 文 件 中 的 mode 值 ， 当 值 为 “test* 时 ， 可 以 运行 
execute.py 进 行 测试 。 关 键 逻辑 代码 如 下 : 





def decode(): 
with tf.Session() as sess: 








# 建立 模型 ， 并 定义 超 参数 batch_size 
model = create_model(sess, True) 
model.batch size = 1 # 这 里 一 次 只 解码 一 个 句子 





# 加 载 词汇 表 文件 
enc_vocab_path = 


os.path. join(gConfig[ ‘working directory‘ ], "vocab%d.enc 
”区 


gconfig['enc vocab size']) 


dec vocab path = os.path.join(gConfig['working directory'],"vocabZd.dec 


"x 
gconfig['dec vocab size']) 


enc vocab,  - data utils.initialize vocabulary(enc vocab path) 
_, rev dec vocab = data utils.initialize vocabulary(dec vocab path) 


# 对 标准 输入 的 句子 进行 解码 
sys.stdout.write("> ") 
sys.stdout.flush() 


sentence = sys.stdin.readline() 
while sentence: 


# 得 到 输入 句子 的 token-ids 


token ids = data utils.sentence to token ids(tf.compat.as bytes(sente 














nce), 


enc vocab) 





# 计算 这 个 token_ids 属 于 哪 一 个 桶 (bucket) 
bucket id = min([b for b in xrange(len( buckets)) 
if _buckets[b][@] > len(token ids)]) 
# 将 句子 送 入 到 模型 中 
encoder_inputs, decoder_inputs, target_weights = model.get_batch( 
{bucket_id: [(token_ids, [])]}, bucket_id) 





_, ., Output logits = model.step(sess, encoder inputs, decoder inputs 


target weights, bucket id, True) 
# 这 是 一 个 信心 的 解码 器 ， 输 出 只 是 output_logits 的 argmaxes。 
outputs = [int(np.argmax(logit, axis=1)) for logit in output logits] 
# 如 果 输 出 中 有 E0Ss 符 号 ， 在 Eos 处 切断 
if data utils.EOS ID in outputs: 
outputs - outputs[:outputs.index(data utils.EOS ID)] 
# 打印 出 与 输出 句子 对 应 的 法 语句 子 


print(" ".join([tf.compat.as str(rev dec vocab[output]) for output in 

















outputs])) 
print("» ", end="") 
sys.stdout.flush() 
sentence = sys.stdin.readline() 





我 们 训练 了 417 次 后 ， 生 成 了 大 小 为 209 MB 的 seq2seq.ckpt-417.data- 
00000-of-00001 模 型 文件 ， 开 始 进 行 测试 ， 结 果 如 下 ( 行 首 有 “>” 的 是 我 
的 输入 ， 没 有 的 是 机 器 人 的 输出 ) : 





> Hello 


Hi. 


» I love you. 
Yeah . 
» What 


What? 


» Sunny day 


What? 


ALBEN E ZR ER). Loss AINA AE Ds XX RR 
模型 的 简单 演示 实现 ， 侧 重 于 关注 聊天 机 器 人 的 原理 。 有 兴趣 的 读者 可 
以 以 优质 的 中 文 对 话语 料 训练 一 个 简易 版 的 中 文 对 话机 器 人 。 





前 面 介 绍 了 基于 文字 的 智能 聊天 机 器 人 ， 如 果 再 结合 上 语音 识别 ， 
就 产生 了 可 以 直接 对 话 的 机 器 人 。 它 的 系统 架构 091 如 图 11-4 所 示 。 













语音 识别 


CASR) 





图 11-4 


国内 的 智能 聊天 机 器 人 有 很 多 。 例 如 ， 图 灵机 器 人 人 公司， 着力 于 提 
高 对 话 和 语义 准确 度 ， 提 升 中 文 语 境 下 的 智能 程度 ， 竹 间 智 能 科技 也 在 
研究 有 记忆 、 目 学 习 的 情感 机 器 人 人， 致力 于 机 器 人 可 以 真正 理解 多 模式 
多 渠道 的 信息 ， 并 给 予 高 度 拟 人 化 的 回应 ， 硕 望 能 以 最 理想 的 目 然 语言 
交流 模式 交流 ， 此外， 腾讯 公司 也 有 很 多 的 社交 对 话 数据 ， 在 聊天 机 器 
人 方面 可 能 会 有 更 大 的 潜力 。 

















目前 国内 微 信 应 用 应 该 是 有 最 庞大 的 目 然 语言 交流 的 语料库 ， 那 么 
微 信 如 果 在 这 方面 发 力 ， 利 用 它 庞大 真实 的 数据 ， 结 合 它 的 小 程序 希望 








成 为 所 有 服务 的 入 口 的 目的 ， 有 很 多 事情 可 以 想象 。 例 如 ， 未 来 的 场景 
可 能 是 ， 我 们 对 着 “ 微 信 助手 ”说 ， 定 个 石 锅 拌 饭 ， 它 就 直接 跳 到 外 卖 的 
小 程序 ， 很 容易 完成 下 单 ， 用 完 即 走 。 





11.4 ”小结 





本 章 主 要 介绍 了 TensorFlow 在 目 然 语言 处 理 中 的 应 用 ， 以 英文 数字 
语言 识别 和 智能 聊天 机 器 人 为 例 ， 讲 解 了 如 何 处 理 数据 集 ， 构 建 网 络 ， 
进行 训练 和 预测 。 关 于 自然 语言 处 理 还 有 很 多 方面 ， 如 文本 情感 分 析 、 
言 姑 检索 与 问答 系统 、 机 器 翻译 、 语 言 合成 等 ， 读 者 也 可 以 多 进行 尝 

试 。 








[1] 广义 的 目 然 语言 处 理 包含 语 音 处 理 及 文本 处 理 ， 狭 义 的 单 指 理解 
和 处 理 文 本 。 本 书 均 指 广义 的 概念 。 








[2] http://karpathy.github.io/2015/05/21/rnn-effectiveness/ 


[3] 本 节 代 码 参 考 https://github.com/pannous/tensorflow-speech- 
recognition/blob/master/speech2text-tflearn.py 。 


[4]  http://pannous.net/spoken numbers.tar 


[5] APRES S https://github.com/suriyadeepan/easy seq2seq 。 需 要 
依赖 TensorFlow 0.12.1 环 境 ， 请 读者 目 行 适 配 。 








[6]  httpz//www.cs.cornell.edu/-cristian/Cornell Movie- 


Dialogs Corpus.html 


[7] ”参考 论文 《Grammar as a Foreign 
Language) : http://arxiv.org/abs/1412.7449 . 


[8] “参见 《中 国人 工 智 能 学 会 通讯 》2016 年 第 6 卷 第 1 期 。 





Fle ”图像 与 语音 的 结合 





斯 坦 福 大 学 人 工 智能 实验 室 的 李 飞 飞 教授 在 2017 年 极 客 大 会 上 曾经 
讲 过 ， 实 现 人 工 入 能 要 有 3 个 要 素 : 语法 (syntax) 、 语 义 
(semantics) 和 推理 (inference) ， 如 图 12-1 所 示 。 


理解 结构 


感知 世界 


语法 





图 12-1 


语言 和 视觉 是 人 工 智 能 界 非常 关注 的 点 ， 也 就 是 说 ， 在 语言 和 视觉 
层面 ， 通 过 语法 (对 语言 来 说 是 语法 解析 ， 对 视觉 来 说 是 三 维 结构 的 解 
Wr) 和 语义 (对 语言 来 说 是 语义 ， 对 视觉 来 说 是 物体 动作 的 含义 〉 作 为 
模型 的 输入 训练 数据 ， 最 终 实 现 推 理 的 能 力 ， 也 就 是 把 训练 中 学 习 到 的 
能 力 应 用 到 工作 中 去 ， 从 新 的 数据 中 推断 出 结论 。 M 








12.4 看 图 说 话 模 型 


将 图 像 和 语言 融合 ， 束 是 “看 图 说 话 ”*"。 看 图 说 话 的 目标 是 ， 输 入 一 
张 图 片 ， 布 望 我们 训练 的 看 图 说 话 模型 能 够 根据 图 像 给 出 描述 图 像 内 容 
的 自然 语言 ， 讲 出 一 个 故事 。 这 是 一 个 很 大 的 挑战 ， 因 为 这 需要 在 图 像 
信息 和 文本 信息 这 两 种 不 同形 式 的 信息 之 间 进 行 “翻译 ”。 











本 节 我 们 以 TensorFlow 的 官方 模型 外 为 例 ， 讲 解 如 何 训练 一 个 看 
图 说 话 的 模型 。 这 个 模型 要 达到 的 目标 是 : 我 们 给 出 一 张 图 片 ， 机 器 要 
给 出 “A person on a beach flying a kite” 的 描述 ， 如 图 12-2 所 示 。 


A person on a beach 
flying a kite. 





图 12-2 
12.1.1 原理 


看 图 说 话 模 型 采用 的 是 编码 器 -解码 器 框架 ， 先 将 图 像 编 码 成 固定 
的 中 间 矢 量 ， 然 后 解码 成 自然 语 言 的 描述 。 编 码 器 -解码 器 框架 如 图 12-3 
所 示 。 这 里 编码 器 采用 的 是 Inception V3 图 像 识 别 模型 ， 解 码 器 采用 的 


是 LSTM 网 络 。 





图 12-3 


在 图 12-3 中 ，{so,s1，.,Sn_1} 是 字幕 的 词 ，{wesoywes1， We Sn 
} 是 它们 对 应 的 词 租 入 向 量 ，LSTM 的 输出 {p 1, po... Pn} 是 由 句子 中 的 
下 一 个 词 生 成 的 概率 分 布 。{log p 1 (s1), log p > (Sz),---, log P n (Sn )} xe IE 
确 词 在 每 一 个 步骤 的 对 数 似 然 ， 这 几 个 值 的 总 和 取 负 数 是 我 们 模型 的 最 
小 化 目标 。 


12.1.2 ”最 佳 实践 


这 里 使 用 微软 的 Microsoft COCO Caption 数 据 集 Bl, &isk EH 5 
个 标题 文字 。Microsoft COCO Caption 数 据 集 有 两 部 分 ， 即 2014 年 版 本 


和 2015 年 版 本 。 这 里 采用 的 是 2014 年 版 本 |4I 。 


为 了 能 够 直接 使 用 预 训 练 的 mception V3 模 型 ， 这 里 采用 
TensorFlow-Slim 图 像 分 类 库 ©! , 


这 里 直接 用 现成 的 代码 来 训练 模型 ， 主 要 讲解 构建 模型 的 过 程 。 训 
练 的 代码 在 tensormodels/im2txt/im2txt/train.py 中 ， 构 建 模型 的 代码 在 
tensormodels/im2txt/im2txt/show_ and_tell_model.py 中 。 


ShowAndTellModel 的 build 函 数 中 说 明了 构建 模型 的 过 程 : 


class ShowAndTellModel(object): 
def build(self): 


self.build inputs() # 构建 输入 数据 

self.build image embeddings() # 采用 Inception V3 构 建 图 像 模 型 ， 并 且 输 出 
Fd Fr ERN I] 

self.build seq embeddings() # 构建 输入 序列 的 embeddings 

self.build_model() # 将 CNN 和 LSTM 串 联 起 来 ， 构 建 完 整 模 型 


























self.setup inception initializer() # 载 入 Inception V3 预 训练 模型 
self.setup global step() # 记录 全 局 的 迭代 次 数 





我 们 看 看 训练 时 是 如 何 做 的 : 





def main(unused argv): 
assert FLAGS.input file pattern, "--input file pattern is required" 
assert FLAGS.train dir, "--train dir is required" 


model config - configuration.ModelConfig() 

model config.input file pattern - FLAGS.input file pattern 
model config.inception checkpoint file - FLAGS.inception checkpoint file 
training config - configuration.TrainingConfig() 





# 创建 训练 结果 的 存储 路 径 

train_dir = FLAGS.train_dir 

if not tf.gfile.IsDirectory(train_dir): 
tf. logging.info("Creating training directory: Xs", train dir) 
tf.gfile.MakeDirs(train dir) 


# 建立 TensorFlow 数 据 流 图 
g = tf.Graph() 
with g.as default(): 
# 构建 模型 
model = show and tell model.ShowAndTellModel( 
model config, mode-"train", train inception-FLAGS.train inception) 
model.build() 








# 定义 学 习 率 
learning rate decay fn = None 
if FLAGS.train inception: 
learning rate - tf.constant(training config.train inception learning 
rate) 
else: 
learning rate - tf.constant(training config.initial learning rate) 
if training config.learning rate decay factor > 0: 
num batches per epoch - (training config.num examples per epoch / 
model config.batch size) 
decay steps - int(num batches per epoch * 
training config.num epochs per decay) 


def learning rate decay fn(learning rate, global step): 
return tf.train.exponential decay( 
learning rate, 
global step, 
decay steps-decay steps, 
decay rate-training config.learning rate decay factor, 
staircase-True) 


learning rate decay fn - learning rate decay fn 


# 定义 训练 的 操作 
train op = tf.contrib.layers.optimize loss( 
loss-model.total loss, 
global stepzmodel.global step, 
learning rate-learning rate, 
optimizer-training config.optimizer, 
clip gradients-training config.clip gradients, 
learning rate decay fn-learning rate decay fn) 





saver = tf.train.Saver(max to keep-training config.max checkpoints to - 


keep) 


# 训练 
tf.contrib.slim. learning. train( 
train_op, 


train_dir, 

log every n steps-FLAGS.log every n steps, 
graph-g, 

global stepzmodel.global step, 

number of steps-FLAGS.number of steps, 
init fnzmodel.init fn, 

saver-saver) 





最 后 运行 tensormodels/im2txt/im2txt/run_inference.py 来 预测 生成 的 模 





型 。 输 入 一 张 图 片 ， 看 看 它 给 出 的 描述 。 输 入 图 12-4 所 示 的 图 片 。 


Captions for image COCO val2014 000000224477. jpg: 
@) a man riding a wave on top of a surfboard . (p=0.040413) 
1) a person riding a surf board on a wave (p-0.017452) 
2) a man riding a wave on a surfboard in the ocean . (p=0.005743) 








它 给 出 了 3 个 带 概率 分 布 的 句子 ， 意 思 表 达 得 比较 准确 ， 而 且 语法 


也 合乎 自然 逻辑 。 


我 们 也 和 希望 今后 看 图 说 话 能 够 给 出 更 长 的 描述 。 现 在 有 些 公司 的 目 
动 化 新 闻 写 作 机 器 人 已 经 可 以 根据 视频 直播 结合 一 些 历史 数据 ， 写 作 关 
于 奥运 、 体 育 等 类 型 的 稿件 了 。 








10:0 J 





本 章 主要 讲述 了 图 像 和 自然 语言 相 结合 的 应 用 一 一 看 图 说 话 。 这 个 
模型 结合 了 卷 积 神经 网 络 Inception V3 模型 和 循环 神经 网 络 LSTM 模 型 。 
实现 过 程 中 ， 首 先 将 图 像 转换 成 图 像 骨 入 向 量 ， 然 后 用 类 似 于 词 舱 入 的 
方法 来 训练 。 关 于 图 像 和 语言 相 结 合 的 例子 还 有 图 像 语义 标注 、 图 像 语 
义 分 析 每 ， 读 者 可 以 自行 实践 。 














[1] ”参考 论文 《The Syntax, Semantics and Inference Mechanism in 
Natural Language) : http://www.aaai.org/Papers/Symposia/Fall/1996/FS- 
96-04/FS96-04-010.pdf . 


[2]  https:;//github.com/tensorflow/models/tree/master/im2txt 





[3]  http://mscoco.org/ . Microsoft COCO Caption 数 据 集 是 建立 在 
Microsoft Common Objects in Context (COCO) 数据 集 的 工作 基础 上 
的 。COCO 含 有 超过 30 万 张 图 片 ，200 万 个 标记 实体 。Microsoft COCO 
Caption 是 对 原 COCO 数 据 集中 约 33 万 张 图 片 ， 使 用 亚马逊 公司 的 
Mechanical Turk 服 务 ， 人 工地 为 每 张 图 片 生成 了 至 少 5 名 标注 ， 标 注 语 
句 总 共 超 过 了 150 万 句 。 





[4] ”2014 年 版 本 中 训练 集 有 82 783 张 图 片 ， 验 证 集 有 40 504 张 图 片 和 测 
试 集 有 40 775 张 图 片 。 


[5] https://github.com/tensorflow/models/tree/master/slim 


第 13 章 ”生成 式 对 抗 网 络 


生成 式 对 抗 网 络 (generative adversarial network, GAN) 是 由 谷歌 
公司 在 2014 年 提出 的 一 个 网 络 模型 ， 主 要 灵感 来 自 于 二 人 博弈 中 的 零 和 
博 码 ， 也 是 目前 最 火热 的 非 监 督 深度 学 习 的 代表 。 “GANZ "Ilan J. 
Goodfellow 也 被 公认 为 人 工 智 能 的 顶级 专家 。 








Yann Lecun 在 Quora 上 答题 时 曾 说 ， 他 最 激动 的 深度 学 习 进 展 是 生 
成 式 对 抗 网 络 。 


13.1. 生成 式 对 抗 网 络 的 原理 


生成 式 对 抗 网 络 包 含 一 个 生成 模型 (generative model, G) 和 一 个 
判别 模型 (discriminative model, D) 。 本 节 内 容 参 考 了 Ian J. 
Goodfellow. Jean Pouget-Abadie. Mehdi Mirza, Bing Xu, David Warde- 
Farley. Sherjil Ozair, Aaron Courville, Yoshua Bengio 的 论文 


«Generative Adversarial Networks) HH , 


生成 式 对抗 网 络 的 网 络 结构 如 图 13-1 所 示 。 


图 13-1 


生成 式 对 抗 网 络 主要 解决 的 问题 是 如 何 从 训练 样本 中 学 习 出 新 样 
本 。 生 成 模型 就 是 负责 训练 出 样本 的 分 布 ， 如 果 训 练 样本 是 图 片 就 生成 
相似 的 图 片 ， 如 果 训 练 样本 是 文章 句子 残 生成 相似 的 文章 和 句子。 判别 模 
型 是 一 个 二 分 类 器 ， 用 来 判断 输入 样本 是 真实 数据 还 是 训练 生成 的 样 
本 。 








生成 式 对 抗 网 络 的 优化 是 一 个 二 元 极 小 极 大 博 奔 〈minimax two- 
player game) 问题 ， 它 的 目的 是 使 生成 模型 的 输出 再 输入 给 判别 模型 
时 ， 判 别 模型 很 难 判断 是 真实 数据 还 是 虚假 数据 。 训 练 好 的 生成 模型 ， 
有 能 力 把 一 个 噪声 问 量 转化 成 和 训练 集 类 似 的 样本 。 





其 体 到 每 一 个 生成 式 对 抗 网 络 的 模型 ， 有 很 多 种 结构 ， 不 过 整体 思 
路 是 不 变 的 ， 如 图 13-2 所 示 。 


Vanilla GAN Discriminator Looks at Latent Variables Discriminator Predicts Latent Variables 


Vanilla GAN Conditional GAN Bidirectional GAN Semi-Supervised GAN InfoGAN Auxiliary Classifier GAN 
(Goodfellow.etal.2014) | (Mirza & Osindero,2014) (Donahueetal2016; Dumoulinet al.2016)}(Odena2016; Salimansetal2016| (Chen,et.al,2016) (Odena.ct,al,2016) 


fake 





图 13-2 [2] 





读者 也 可 以 设计 自己 的 GAN 网 络 架构 。 我 们 主要 讲解 辅助 分 类 器 
生成 式 对 抗 网 络 (auxiliary classifier GAN, AC-GAN) 的 实现 。 


13.2 生成 式 对 抗 网 络 的 应 用 





生成 式 对 抗 网 络 取 得 的 成 果 有 很 多 ， 目 前 在 生成 数字 和 生成 人 脸 图 
像 方面 表现 都 非常 好 ， 目 前 也 是 深度 学 习 研 究 的 一 个 重要 思路 。 图 13-3 
给 出 的 是 训练 好 的 生成 式 对 抗 网 络 的 生成 模型 产生 出 来 的 一 些 样本 。 














KD 
EI 


图 13-3 [3] 





13.3 ”生成 式 对 抗 网 络 的 实现 M 


我 们 拿 AC-GAN 作 为 例子 ， 看 如 何在 MNIST 数 据 集 上 实现 生成 式 对 
抗 网 络 。 这 个 实现 代码 是 以 Augustus Odena, Christopher Olah 和 Jonathon 
Shlens 的 论文 《Conditional Image Synthesis With Auxiliary Classifier 
GANs) DP! 为 基础 的 。 


正如 图 13-2 所 示 ， 我 们 通过 噪声 ， 让 生成 模型 G 生 成 虚假 数据 ， 
cai 起 送 到 判别 模型 D 当 中 ， 判 别 模型 一 方面 输出 2 这 个 数据 
的 真 / 假 ， 另 一 方面 输出 这 个 图 片 的 分 类 《对 于 MNIST 来 说 就 是 0 一 
) 。 我 们 现在 来 看 具体 的 代码 实现 。 


首先 定义 生成 模型 ， 目 的 是 要 生成 一 对 〈z, 工 ) 数据 ， 其 中 z 是 噪声 
向 量 , LÆ (1, 28, 28) 的 图 像 空间 ， 如 下 : 





def build generator(latent size): 
cnn = Sequential() 


cnn.add(Dense(1024, input dim-latent size, activation='relu' )) 
cnn.add(Dense(128 * 7 * 7, activation-'relu')) 
cnn.add(Reshape((128, 7, 7))) 


# 上 采样 ， 图 像 尺 寸 变 为 14x14 

cnn.add(UpSampling2D(size=(2, 2))) 

cnn.add(Convolution2D(256, 5, 5, border mode-'same', 
activation-'relu', init-'glorot normal')) 


# 上 采样 ， 图 像 尺 寸 变 为 28x28 

cnn.add(UpSampling2D(size=(2, 2))) 

cnn.add(Convolution2D(128, 5, 5, border mode-'same', 
activation-'relu', init-'glorot normal')) 








# 规约 到 1 个 通道 
cnn.add(Convolution2D(1, 2, 2, border mode-'same', 








activation-'tanh', init-'glorot normal')) 





# 生成 模型 的 输入 层 ， 特 征 向 量 
latent = Input(shape=(latent_size, )) 





# 生成 模型 的 输入 层 ， 标 记 
image class = Input(shape=(1,), dtype-'int32') 


cls - Flatten()(Embedding(10, latent size, init-'glorot normal')(image c 
lass)) 


h = merge([latent, cls], mode-'mul') 





fake image = cnn(h) # 输出 虚假 图 片 


return Model(input-[latent, image class], output-fake image) 





接 下 来 我 们 定义 判别 模型 ， 输 入 (1, 28, 28) 的 图 片 ， 输 出 有 两 个 





值 ， 一 个 是 判别 模型 认为 这 张 图 片 是 否 古 虚假 图 片 ， 妨 一 个 是 判别 模型 
认为 这 张 图 片 所 属 的 分 类 。 





def build discriminator(): 
























































# 采用 激活 函数 Leaky ReLu 来 蔡 换 标准 的 卷 积 神经 网 络 中 的 激活 函数 
cnn = Sequential() 


cnn.add(Convolution2D(32, 3, 3, border_mode='same', subsample=(2, 2), 
input_shape=(1, 28, 28))) 

cnn.add(LeakyReLU() ) 

cnn.add(Dropout(0.3)) 


cnn.add(Convolution2D(64, 3, 3, border mode-'same', subsample-(1, 1))) 
cnn.add(LeakyReLU() ) 
cnn.add(Dropout(0.3)) 


cnn.add(Convolution2D(128, 3, 3, border mode-'same', subsample-(2, 2))) 
cnn. add(LeakyReLU()) 


cnn.add(Dropout(0.3)) 


cnn.add(Convolution2D(256, 3, 3, border mode-'same', subsample-(1, 1))) 
cnn.add(LeakyReLU() ) 
cnn.add(Dropout (@.3)) 


cnn.add(Flatten()) 

image = Input(shape=(1, 28, 28)) 

features - cnn(image) 

# 有 两 个 输出 

# 输出 真 假 值 ， 范 围 在 6 一 1 

fake = Dense(1, activation-'sigmoid', name='generation' )(features) 


# 辅助 分 类 器 ， 输 出 图 片 的 分 类 


aux = Dense(10, activation-'softmax', name='auxiliary')(features) 


















































return Model(input=image, output=[fake, aux]) 





下 面 开 始 写 训练 的 过 程 ， 我 们 进行 50 轮 Cepoch) ， 并 把 权重 保存 
下 来 ， 每 轮 也 把 虚假 数据 生成 的 图 片 保存 下 来 ， 便 于 观察 虚假 数据 的 演 
化 过 程 ， 代 码 如 下 : 





if name == ' main ': 


# 定义 超 参数 
nb_epochs = 5@ 
batch_size = 100 
latent_size = 100 


# 优化 器 的 学 习 率 
adam lr = 0.0002 
adam beta 1 - 0.5 


# 构建 判别 网 络 


discriminator = build discriminator() 


discriminator. compile( 
optimizer-Adam(lr-adam lr, beta 1-adam beta 1), 
loss-['binary crossentropy', 'sparse categorical crossentropy'] 


) 
# 构建 生成 式 网 络 


generator = build generator(latent size) 
generator.compile(optimizer-Adam(lr-adam lr, beta 1-adam beta 1), 
loss-'binary crossentropy') 


latent = Input(shape-(latent size, )) 
image class = Input(shape=(1,), dtype-'int32') 


8 生成 虚假 图 片 


fake = generator([latent, image class]) 








# 生成 组 合 模型 

discriminator.trainable = False 

fake, aux = discriminator(fake) 

combined = Model(input=[latent, image class], output-[fake, aux]) 











combined.compile(optimizer-Adam(l1r-adam lr, beta 1-adam beta 1), 
loss-['binary crossentropy', 'sparse categorical crossentropy'] 


) 


# 将 mnist 数 据 转化 为 (...，1，28，28) 维度 ， 并 且 取 值 范 围 为 [-1，1] 
(X_train, y_train), (X_test, y_test) = mnist.load_data() 
X_train = (X_train.astype(np.float32) - 127.5) / 127.5 
X_train = np.expand_dims(X_train, axis=1) 




















X_test = (X_test.astype(np.float32) - 127.5) / 127.5 
X_test = np.expand_dims(X_test, axis=1) 


nb train, nb test = X train.shape[0], X_test.shape[@] 


train history - defaultdict(list) 
test history - defaultdict(list) 


for epoch in range(nb epochs): 
print('Epoch () of {}'.format(epoch + 1, nb epochs)) 


nb batches - int(X train.shape[0] / batch size) 
progress bar - Progbar(target-nb batches) 


epoch gen loss - [] 
epoch disc loss - [] 


1)) 


for index in range(nb batches): 
progress bar.update(index) 
# 产生 一 个 批 次 的 噪声 数据 
noise = np.random.uniform(-1, 1, (batch_size, latent_size)) 




















# 获取 一 个 批 次 的 真实 数据 
image batch = X_train[index * batch size:(index + 1) * batch size] 
label batch = y train[index * batch size:(index + 1) * batch size] 


# 生成 一 些 噪声 标记 
sampled labels = np.random.randint(@, 10, batch size) 


# 产生 一 个 批 次 的 虚假 图 片 
generated_images = generator.predict( 
[noise, sampled_labels.reshape((-1, 1))], verbose-0) 


X = np.concatenate((image batch, generated images)) 
y = np.array([1] * batch size + [0] * batch size) 
aux y = np.concatenate((label batch, sampled labels), axis-0) 


epoch disc loss.append(discriminator.train on batch(X, [y, aux y])) 
# 产生 两 个 批 次 的 噪声 和 标记 


noise = np.random.uniform(-1, 1, (2 * batch size, latent size)) 
sampled labels = np.random.randint(@, 10, 2 * batch size) 
























































# 我 们 训练 生成 模型 来 欺骗 判别 模型 ， 所 以 将 输出 的 真 / 假 都 设 为 真 


trick = np.ones(2 * batch_size) 








epoch_gen_loss.append(combined.train_on_batch( 
[noise, sampled_labels.reshape((-1, 1))], [trick, sampled labels 
print('\nTesting for epoch {}:'.format(epoch + 1)) 
# 评估 测试 集 
# 产生 一 个 新 批 次 的 噪声 数据 


noise = np.random.uniform(-1, 1, (nb_test, latent_size)) 





sampled labels = np.random.randint(0, 10, nb test) 
generated images = generator.predict( 
[noise, sampled labels.reshape((-1, 1))], verbose-False) 


X = np.concatenate((X test, generated images)) 


y = np.array([1] * nb test + [0] * nb test) 
aux y = np.concatenate((y test, sampled labels), axis-0) 





# 看 看 判别 模型 是 否 能 判别 
discriminator_test_loss = discriminator.evaluate(X, [y, aux_y], verb 














ose=False) 


discriminator_train_loss = np.mean(np.array(epoch disc loss), axis-0 




















) 
# 创建 两 个 批 次 新 的 噪声 数据 
noise = np.random.uniform(-1, 1, (2 * nb_test, latent_size)) 
sampled labels = np.random.randint(0, 10, 2 * nb test) 
trick = np.ones(2 * nb test) 
generator test loss - combined.evaluate( 
[noise, sampled labels.reshape((-1, 1))], 
[trick, sampled labels], verbose-False) 
generator train loss - np.mean(np.array(epoch gen loss), axis-0) 
# 把 损失 值 等 性 能 指标 记录 下 来 ， 并 输出 
train history['generator'].append(generator train loss) 
train history['discriminator'].append(discriminator train loss) 
test history['generator'].append(generator test loss) 
test history['discriminator'].append(discriminator test loss) 
print('(0:«22s) | (1:4s) | (2:15s) | {3:5s}'.format('component', 
*discriminator.metrics names)) 
print('-' * 65) 
ROW FMT = '(0:«22s) | (1:«4.2f) | (2:«15.2f) | {3:<5.2}' 
print(ROW FMT.format('generator (train)', *train history['generator' 
][-1])) 
print(ROW FMT.format('generator (test)', *test history['generator'][ 
-1])) 


print(ROW FMT.format('discriminator (train)', 

*train history ['discriminator'][-1])) 
print(ROW FMT.format('discriminator (test)', 

*test history ['discriminator'][-1])) 


# 每 一 个 eopch 保 存 一 次 权重 
generator.save_weights('params_generator_epoch_{@:03d}.hdf5'.format 


(epoch), True) 


discriminator.save weights('params discriminator epoch 1(0:03dj.hdf5' 


format(epoch), True) 




















# 生成 一 些 可 视 化 的 虚假 的 数字 来 看 演化 过 程 


noise = np.random.uniform(-1, 1, (100, latent size)) 





sampled labels = np.array([[i] * 10 for i in range(10)]).reshape(-1, 
1) 


generated images - generator.predict([noise, sampled labels], verbos 
e=0) 

















# 整理 到 一 个 方 格 中 
img = (np.concatenate([r.reshape(-1, 28) 
for r in np.split(generated_images, 10) 
], axis=-1) * 127.5 + 127.5).astype(np.uint8) 





Image. fromarray(img).save('plot_epoch_{@:03d} generated.png' .format ( 
epoch) ) 


pickle.dump(('train': train history, 'test': test_history}, 
open('acgan-history.pkl', 'wb')) 





训练 结束 后 ， 会 创建 以 下 3 类 文件 。 


e paramsdiscriminator_epoch {{epoch_number}}.hdf5: 判别 模型 的 权 
重 参数 。 

e paramsgenerator_epoch {{epoch_number}}.hdf5: 生成 模型 的 权重 参 
数 。 

e plotepoch ((epoch number]) generated.png: 产生 的 一 些 虚假 数据 的 
EL 


在 训练 过 程 中 ， 刚 开始 看 到 的 图 像 是 条 乱 的 。 例 如 ， 第 一 轮 结束 后 


的 图 像 如 图 13-4 所 示 。 





图 13-4 


不 多 的 图 像 ， 如 图 13-5 所 示 。 
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图 13-5 
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展 好 的 图 像 ， 如 图 13-6 所 
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在 训练 15 轮 后 ， 可 以 得 到 一 
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[513-6 


就 已 经 收敛 到 纳什 均衡 点 (Nash 


事实 上 ， 在 15 轮 左右 ， 训 练 损 


equilibrium point) 。 


13.4 生成 式 对 抗 网 络 的 改进 


生成 式 对 抗 网 络 (generative adversarial network, GAN) 在 无 监督 
学 习 上 是 非常 有 效 的 。 但 是 ， 常 规 的 生成 式 对 抗 网 络 的 判别 器 使 用 的 是 
Sigmoid 交 义 燃 损失 函数 ， 这 在 学 习 过 程 中 可 能 导致 梯度 消失 。 生 成 式 
对 抗 网 络 的 一 个 改进 是 Wasserstein 生 成 式 对 抗 网 络 (Wasserstein 
generative adversarial network; WGAN) ， 它 使 用 Wasserstein 距 离 度量 
而 不 是 Jensen-Shannon 散 度 (Jensen-Shannon divergence, JSD) 。 生 成 
式 对抗 网 络 的 男 一 个 改进 是 使 用 最 小 二 乘 生 成 式 对抗 网 络 (least squares 
generative adversarial network, LSGAN) ， 它 的 判别 模型 采用 最 小 平方 
损失 函数 Cleast squares loss function) 。 关 于 更 多 它们 之 前 的 区 别 ， 读 
者 可 参考 Sebastian Nowozin、Botond Cseke 和 Ryota Tomioka 的 论文 《f- 











GAN: Training Generative Neural Samplers using Variational Divergence 


Minimization) [6] , 


13.5 小结 





本 章 讲解 了 2017 年 初 最 令 学 术 界 恢 喜 的 进展 一 一 生成 式 对抗 网 络 ， 
包括 它 的 原理 、 目 前 的 应 用 以 及 多 个 变种 ， 并 且 以 AC-GAN 作 为 例子 使 
用 TensorFlow 进 行 了 实现 ， 在 MNIST 上 训练 可 以 看 到 不 错 的 效果 。 生 成 
式 对 抗 网 络 的 改进 主要 有 两 个 方向 : 一 是 度量 距离 的 算法 ， 二 是 采用 不 
同 的 损失 函数 。 





[1]  https://arxiv.org/abs/1406.2661 


[2] ”本 图 出 自 Augustus Odena, Christopher Olah 和 Jonathon Shlens 的 论 
X. (Conditional Image Synthesis with Auxiliary Classifier 
GANs) : https://arxiv.org/pdf/1610.09585.pdf 。 


[3] ”本 图 出 自 Ian J. Goodfellow. Jean Pouget-Abadie. Mehdi Mirza. 
Bing Xu. David Warde-Farley. Sherjil Ozair, Aaron Courville 和 Yoshua 
Bengioll]i& X. (Generative Adversarial 

Networks) : https://arxiv.org/abs/1406.2661 . 


[4] ANE 
A https://github.com/fchollet/keras/blob/master/examples/mnist acgan.py 。 


[5]  https://arxiv.org/abs/1610.09585 


[6]  https://arxiv.org/abs/1606.00709 
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终于 学 完 基 础 篇 和 实战 篇 了 了， 相信 读者 已 经 掌握 了 移 阅 读 论 文 了 解 
原理 ， 然 后 复 现 模型 、 调 整 模型 ， 最 后 用 自己 的 数据 训练 模型 的 一 整套 
方法 。 下 面 我 们 进入 提高 篇 ， 提 高 篇 主要 着 力 于 在 训练 集 数据 量 极 大 、 
网 络 模型 极 大 《也 就 是 参数 极 多 ) 的 情况 下 ， 我 们 应 该 采用 什么 样 的 分 
布 式 架构 设计 ， 以 及 如 何 配合 Kubernetes、Spark 等 工具 来 做 训练 。 








除 此 之 外 ， 还 介绍 几 个 TensorFlow 非 常 有 潜力 的 新 特性 ， 如 线性 代 
数 编 译 框 架 XLA、 调 试 工具 Debugger、TensorFlow 在 移动 端 上 的 应 用 、 
生产 环境 工具 Serving、 动 态 计算 图 工具 Flod 等 。 最 后 介绍 一 些 机 器 学 习 
的 评测 体系 。 








TensorFlow 本 喘 是 一 把 非常 好 用 的 锤子 ， 基 础 篇 介绍 了 锤子 的 结 
构 ， 实 战 篇 我 们 学 会 了 用 锤子 硬 核 桃 的 动作 ， 如 果 砸 的 进度 非常 慢 怎 么 
2M? 用 分 布 式 并 行 ， 配 合 分 布 式 集群 的 管理 Kubernetes。 如 果 核 桃 特别 
多 “训练 数据 非常 多 ) 得 无 法 存储 怎么 办 ?用 Spark 作 为 访问 分 布 式 文 
件 系 统 上 数据 的 方式 。 如 何 优化 计算 图 本 里 呢 ? 用 XLA 框 架 。 砸 得 不 对 
怎么 调试 呢 ?” 用 Debugger。 如 果 在 手掌 上 资源 有 限 的 移动 端 ) 砸 核桃 
怎么 办 ? 有 一 天 要 登台 表演 砸 核桃 ， 是 不 是 应 该 多 准备 儿 个 砸 的 姿势 
《生产 环境 工具 Serving) ? 砸 得 好 不 好 如 何 来 评价 (机 器 学 习 的 评测 体 
A) ng? 








相信 通过 对 这 些 内 容 的 学 习 ， 读 者 会 对 TensorFlow 框 染 的 各 个 方面 


有 更 深入 的 了 解 。 让 我 们 快 开始 吧 ， 我 曾 用 这 篇 中 的 知识 面试 过 很 多 
人 ， 学 懂 这 些 知识 可 能 有 机 会 “秒杀 ”面试 官 。 


第 14 章 “分布 式 TensorFlow 


TensorFlow 的 一 大 亮点 就 是 支持 分 布 式 计算 。 分 布 式 TensorFlow 是 
由 高 性 能 的 gRPC 库 作为 底层 技术 来 文 持 的 。 本 章 我 们 怠 来 学 习 分 布 式 
TensorFlow 所 支持 的 架构 和 适用 场景 。 

本 章 前 3 节 主 要 参考 了 Martin Abadi, Ashish Agarwal 和 Paul Barham 


等 的 论文 《TensorFlow: Large-Scale Machine Learning on Heterogeneous 


Distributed Systems) H. 


14.1 分 布 式 原理 


首先 ， 我 们 介绍 TensorFlow 的 分 布 式 原 理 。TensorFlow 的 分 布 式 集 
群 由 多 个 服务 器 进程 和 客户 问 进 程 组 成 。TensorFlow 有 几 种 部 署 方式 ， 
如 单机 多 卡 和 分 布 式 〈 多 机 多 卡 ) ， 一 般 我 们 把 多 机 多 卡 的 部 署 称 为 
TensorFlow 的 分 布 式 。 本 节 先 介绍 单机 多 卡 和 分 布 式 的 区 别 ， 随 后 介绍 
分 布 式 的 部 署 方式 。 


14.1.1 单机 多 卡 和 分 布 式 


单机 多 卡 是 指 蛙 台 服 务 器 有 多 块 GPU。 假 设 一 台 机 器 上 有 4 块 
GPU， 单 机 多 GPU 的 训练 过 程 如 下 。 








(D 在 单机 单 GPU 的 训练 中 ， 数 据 是 一 个 批 次 (batch) 一 个 批 次 
地 训练 的 。 在 单机 多 GPU 中 ， 一 次 处 理 4 个 批 次 的 数据 ， 每 个 GPU 处 理 
一 个 批 次 的 数据 计算 。 


(2) 变量 ， 也 就 是 参数 ， 保 存在 CPU 上， 数据 由 CPU 分 发 给 4 个 
GPU， 在 GPU 上 完成 计算 ， 得 到 每 个 批 次 要 更 新 的 梯度 。 


(3) 在 CPU 上 收集 完 4 个 GPU 上 要 更 新 的 梯度 ， 计 算 一 下 平均 梯 
度 ， 然 后 更 新 参数 。 





(4) 继续 第 2 步 和 第 3 步 ， 循 环 这 个 过 程 。 


这 个 过 程 的 处 理 速度 取决 于 最 慢 的 那个 GPU 的 速度 。 如 果 4 个 GPU 
的 处 理 速 度 差不多 ， 处 理 速度 就 相当 于 单机 单 GPU 的 速度 的 4 倍 减 去 数 


据 在 CPU 和 GPU 之 间 传 输 的 开销 。 但 是 ， 这 样 进行 并 行 训练 ， 运 算 能 力 
还 是 限制 在 单机 上 。 








分 布 式 是 指 训练 在 多 个 工作 节点 (worker) 上 。 工 作 节 点 是 指 实现 
计算 的 一 个 单元 ， 如 果 计 算 服 务 器 是 单 卡 ， 一 般 就 是 指 这 台 服 务 器 ;如 
果 计 算 服 务 嚣 是 多 卡 ， 还 可 以 根据 多 个 GPU 划 分 多 个 工作 节点 。 当 数据 
量 大 到 超过 一 台 机 器 的 处 理 能 力 时 ， 必 须 使 用 分 布 式 。 





分 布 式 TensorFlow 底 层 的 = a (google remote procedure 
call) > gRPCZÉAS SOT JB — T RERE Pos HHJRPCTEXS. RPCUP 
ee es 
务 。 也 瓯 是 说 ， 假 设 你 在 本 机 上 执行 一 段 代 码 num=add(a, b), "E 45078] FH 
后 ， 得 到 一 个 返回 结果 ， 你 感觉 这 段 代码 是 在 本 机 上 执行 的 ， 但 实际 情 
况 是 ， 本 机 上 的 add 方 法 是 将 参数 打包 发 送 给 远程 服务 器 ， 由 远程 服务 
颖 运行 3dd 方 法， 将 返回 的 结果 再 打包 返回 给 本 机 客户 端的 。 


14.1.2 DERREN N 
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后 端的 服务 器 可 以 部 车 为 单 工作 节点 和 多 工作 节点 。 


1. BOP 











单 工作 节点 部 署 是 在 每 台 服 务 器 上 运行 一 个 工作 节点 ， 假 设 服务 器 
有 4 个 GPU， 一 个 工作 节点 可 以 访问 4 块 GPU 卡 ， 这 时 需要 在 代码 中 使 用 
tf.device() 指 定 运行 操作 的 设备 。 


单 工 作 节 点 部 署 的 优势 是 在 单机 多 个 GPU 间 需要 通信 的 情况 下 ， 效 
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要 手动 在 代码 中 指定 设备 。 


2. SLEPT AE 








多 工作 节点 是 指 一 台 服 务 器 上 可 以 运行 多 个 工作 节点 。 部 车 有 以 下 
两 种 方法 。 


(1) 设置 CUDA_VISIBLE_DEVICES 环 境 变量 ， 限 制 各 个 工作 节 
点 只 可 见 一 个 GPU， 启 动 进程 时 添加 环境 变量 即 可 。 例 如 ， 每 个 工作 节 
点 只 能 访问 一 个 GPU， 在 代码 中 不 需要 额外 指定 器 。 示 例如 下 : 


CUDA VISIBLE DEVICES-'' python ./distributed supervisor.py --ps hosts- 
127.0.0.1:2222,127.0.0.1:2223 --worker hosts-127.0.0.1:2224,127.0.0.1:2225 


--job name-ps --task_index=@ 

CUDA VISIBLE DEVICES-'' python ./distributed supervisor.py 

--ps hosts-127.0.0.1:2222,127.0.0.1:2223 --worker hosts-127.0.0.1:2224, 
127.0.0.1:2225 --job name-ps --task index-1 

CUDA VISIBLE DEVICES-'0' python ./distributed supervisor.py 

--ps hosts-127.0.0.1:2222,127.0.0.1:2223 --worker hosts-127.0.0.1:2224, 
127.0.0.1:2225 --job name-worker --task index-0 


CUDA VISIBLE DEVICES-'1' python ./distributed supervisor.py 
--ps hosts-127.0.0.1:2222,127.0.0.1:2223 --worker hosts-127.0.0.1:2224, 
127.0.0.1:2225 --job name-worker --task index-1 





(2) 使 用 tt.device0 指 定 使 用 特定 的 GPU。 





多 工作 市 后 部 署 的 优势 是 代码 简单 ， 提 高 GPU 使 用 紊 。 多 工作 节点 
部 署 的 劣势 是 工作 市 点 间 如 果 和 需要 通信 束 不 能 利用 本 地 GPU 通 信 的 优 
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14.2 分布 式 架构 BI 





了 解 了 分 布 式 的 原理 之 后 ， 我 们 来 看 一 下 分 布 式 架构 的 组 成 。 分 布 
式 架 构 主 要 由 客户 端 “〈client) 和 服务 端 (server) 组 成 ， 服 务 端 又 包括 
主 节点 Cmaster) 和 工作 节点 〈worker) 两 者 组 成 。 我 们 需要 关注 客户 
端 、 主 节点 和 工作 节点 这 三 者 间 的 关系 和 它们 的 交互 过 程 。 


14.2.1 客户 中、 主 节 后 和 工作 节点 的 关系 


简单 地 来 说 ， 在 TensorFlow 中 ， 客 户 端 通过 会 话 来 联系 主 节 点 ， 实 
际 的 工作 交 由 工作 节点 实现 。 每 个 工作 节点 占据 一 台 设 备 ( 是 
TensorFlow 具 体 计算 的 硬件 抽象 ， 即 CPU 或 GPU〉。 在 单机 模式 下 ， 客 
户 问 、 主 节点 和 工作 节点 都 在 同一 台 服 务 器 上 ; 在 分 布 式 模式 下 ， 它 们 
可 以 位 于 不 同 的 服务 器 上 。 























图 14-1 展 示 了 这 三 者 之 间 的 关系 。 


图 14-1 A 





1. 客户 端 


客户 疹 用 于 建立 TensorFlow 计 算 图 ， 并 建立 与 集群 进行 交互 的 会 话 
层 。 因 此 ， 人 代码 中 只 要 包含 Session0 就 是 客户 端 。 一 个 客户 端 可 以 同时 
与 多 个 服务 端 相 连 ， 同 时 一 个 服务 端 也 可 以 与 多 个 客户 端 相连 。 


2. 服务 端 


服务 端 是 一 个 运行 了 tf.train.Server 实 例 的 进程 ， 是 TensorFlow 执 行 
任务 的 集群 (cluster〉 的 一 部 分 ， 并 有 主 节 点 服务 (Master service, tH 
叫 主 节 点 ) 和 工作 节点 服务 (Worker service， 也 叫 工作 节点 ) 之 分 。 运 
行 中 由 一 个 主 节 点 进程 和 数 个 工作 节点 进程 组 成 ， 主 节点 进程 和 工作 
点 进程 之 间 通 过 接口 通信 。 单 机 多 卡 和 分 布 式 都 是 这 种 结构 ， 因 此 只 需 
要 更 改 它们 之 间 通 信 的 接口 束 可 以 实现 单机 多 卡 和 分 布 式 的 切换 。 


3. 主 节点 服务 


主 节 点 服务 实现 了 tensorflow::Session 接 口 ， 通 过 RPC 服 务 程序 来 远 
程 连接 工作 节点 ， 与 工作 节点 的 服务 进程 中 的 工作 任务 进行 通信 。 在 
TensorFlow 服 务 端 中 ， 一 般 是 task_index 为 0 的 作业 (job) 。 


4. 工作 节操 服务 


工作 节点 服务 实现 了 worker_service.proto 接 口 ， 使 用 本 地 设备 对 部 
分 图 进行 计算 。 在 TensorFlow 服 务 端 中 ， 所 有 工作 节点 都 包含 工作 节点 
的 服务 逻辑 。 每 个 工作 节点 负责 管理 一 个 或 者 多 个 设备 。 工 作 节 点 也 可 
以 是 本 地 不 同 端口 的 不 同 进程 ， 或 者 多 台 服 务 器 上 的 多 个 进程 。14.6 节 
中 会 用 本 地 不 同 端口 的 两 个 进程 来 模拟 两 个 工作 节点 的 部 署 。 








在 运行 TensorFlow 的 分 布 式 时 ， 我 们 首先 需要 创建 一 个 TensorFlow 
集群 (cluster) 对 象 。 集 群 是 TensorFlow 分 布 式 执行 的 任务 集 ， 由 一 个 
或 者 多 个 作业 Gob) 组 成 ， 而 每 个 作业 又 由 一 个 或 多 个 具有 相同 目的 
的 任务 《task) 组 成 。 每 个 任务 一 般 由 一 个 工作 进程 来 执行 。 由 此 可 
知 ， 作 业 是 任务 的 集合 ， 集 群 是 作业 的 集合 。 


在 分 布 式 机 器 学 习 框 架 (包括 TensorFlow 在 内 ) 中 ， 一 般 把 作业 划 


分 为 参数 作业 (parameter job) 和 工作 节点 作业 (worker job) . 2X 
作业 运行 的 服务 器 称 为 参数 服务 器 (parameter server, PS) ， 负 责 管理 
参数 的 存储 和 更 新 ;工作 节点 作业 负责 管理 无 状态 且 主 要 从 事 计 算 的 任 
务 ， 如 运行 操作 。 


当 模 型 越 来 越 大 ， 模 型 的 参数 越 来 越 多 ， 多 到 一 台 机 器 的 性 能 不 够 
完成 对 模型 参数 的 更 新 的 时 候 ， 束 需要 把 参数 分 开放 到 不 同 的 机 器 去 存 
储 和 更 新 。 参 数 服务 器 可 以 是 由 多 人 台 机 器 组 成 的 集群 ， 这 就 有 点 儿 类 似 
于 分 布 式 存储 架构 ， 涉 及 数据 的 同步 、 一 致 性 等 ， 参 数 可 以 存储 为 键 值 
(key-value) 的 形式 ， 或 者 理解 为 一 个 分 布 式 的 键 值 内 存 数 据 库 ， 然 后 
再 加 上 一 些 参数 更 新 的 操作 。 口 





因此 ， 参 数 的 存储 和 更 新 是 在 参数 作业 中 进行 的 ， 模 型 的 计算 是 在 
工作 节点 作业 中 进行 的 。TensorFlow 的 分 布 式 实现 作业 间 的 数据 传输 ， 
也 惑 是 参数 作业 到 工作 节点 作业 的 前 同 传 播 ， 以 及 工作 节 扣 作 业 到 参数 
作业 的 反 向 传播 。 


任务 相当 于 是 一 个 特定 的 TensorFlow 服 务 器 的 独立 进程 ， 该 进程 属 
于 特定 的 作业 并 在 作业 中 拥有 对 应 的 序号 。 在 大 多 数 情况 下 ， 一 个 任务 
对 应 一 个 工作 节点 。 


图 14-2 展 示 了 我 对 集群 内 各 种 关系 的 理解 。 


任务 


任务 


EF 


任务 





图 14-2 





14.2.2 ”客户 端 、 主 节点 和 工作 节点 的 交互 过 程 





任务 整体 执行 流程 如 图 14-3 所 示 ， 左 边 是 单机 多 卡 的 交互 ， 右 边 是 
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知道 了 分 布 式 的 架构 以 及 客户 端 、 主 节点 和 工作 节点 的 关系 ， 我 们 
来 看 看 分 布 式 的 具体 运行 模式 是 什么 。 在 训练 一 个 模型 的 过 程 中 ， 有 哪 
些 部 分 可 以 分 开 ， 放 在 不 同 的 机 器 上 运行 呢 ? 这 里 就 介绍 两 种 模式 : 数 
据 并 行 和 模型 并 行 。 
14.3.1 数据 并 行 

数据 并 行 的 原理 很 简单 ， 如 图 14-4 所 示 。 其 中 CPU 主要 负责 梯度 平 
均 和 参数 更 新 ， 而 GPU1 和 GPU2 主 要 负责 训练 模型 副本 (model 
replica) 。 这 里 称 作 * 模 型 副本 ”是 因为 它们 都 是 基于 训练 样 例 的 子 集 训 
练 得 到 的 ， 模 型 之 间 具 有 一 定 的 独立 性 。 
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(1) 在 GPU1 和 GPU2 上 分 别 定 义 模型 网 络 结构 。 


(2) 对 于 单个 GPU， 分 别 从 数据 管道 读 取 不 同 的 数据 块 ， 然 后 进 
行 前 向 传播 ， 计 算出 损失 ， 再 计算 当前 变量 的 梯度 。 


(3) 把 所 有 GPU 输出 的 梯度 数据 转移 到 CPU 上 ， 先 进行 梯度 求 平 
均 操作 ， 然 后 进行 模型 变量 的 更 新 。 








(4) 重复 第 1 步 至 第 3 步 ， 直 到 模型 变量 收敛 为 止 。 


数据 并 行 的 目的 主要 是 提高 SGD 的 效率 。 例 如 ， 假 如 每 次 SGD 的 
mini-batch 大 小 是 1000 个 样本 ， 那 么 如 果 切 成 10 份 ， 每 份 100 个 ， 然 后 将 
模型 复制 10 份 ， 就 可 以 在 10 个 模型 上 同时 计算 。 








但 是 ， 因 为 10 个 模型 的 计算 速度 可 能 是 不 一 致 的 ， 有 的 快 有 的 慢 ， 
那么 在 CPU 更 新 变量 的 时 候 ， 是 应 该 等 待 这 一 mini-batch 全 部 计算 完 
成 ， 然 后 求 和 取 平 均 来 更 新 呢 ， 还 是 让 一 部 分 先 计 算 完 的 就 和 完 更 新 ， 后 
计算 完 的 将 前 面 的 履 盖 呢 ? 这 就 引出 了 同步 更 新 和 异步 更 新 的 问题 。 


14.3.2 ”同步 更 新 和 异步 更 新 


分 布 式 随机 梯度 下 降 法 是 指 ， 模 型 参数 可 以 分 布 式 地 存储 在 不 同 
的 参数 服务 器 上 ， 工 作 节 点 可 以 并 行 地 训练 数据 并 且 能 够 和 参数 服务 器 
通信 获取 模型 参数 。 更 新 参数 也 分 为 同步 和 和 异 步 两 种 方式 ， 即 为 异步 随 
机 梯度 下 降 法 CAsync-SGDO 和 同步 随机 梯度 下 降 法 (Sync-SGD) , 
如 图 14-5 所 示 。 











图 14-5 [8] 





同步 随机 梯度 下 降 法 (也 称 同 步 更 新 、 同 步 训 练 〉 的 含义 是 在 进行 
训练 时 ， 每 个 市 点 上 的 工作 任务 需要 读 入 共 至 参数 ， 执 行 并行 的 梯度 计 
算 ， 同 步 需 要 等 待 所 有 工作 节点 把 局 部 的 梯度 算 好 ， 然 后 将 所 有 共 且 人 参 
数 进行 合并 、 累 加 ， 再 一 次 性 更 新 到 模型 的 参数 ， 下 一 个 批 次 中 ， 所 有 
工作 节点 拿 到 模型 更 新 后 的 参数 再 进行 训练 。 








个 训练 批 次 部 考虑 了 所 有 工作 节点 的 训练 情 
势 是 ， 性 能 憩 颈 在 于 最 慢 的 工作 市 把 上 。 在 





这 种 方案 的 优势 是 ， 
况 ， 损 失 下 降 比 较 稳 定 ; 25 
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异步 随机 梯度 下 降 法 (也 称 腊 步 更 新 、 异 步 训 练 ) 的 含义 是 每 个 工 
作 节 点 上 的 任务 独立 计算 局 部 梯度 ， 并 异步 更 新 到 模型 的 参数 中 ， 不 需 
要 执行 协调 和 等 待 操作 。 





这 种 方案 的 优势 优势 是 ， 性 能 不 存在 瓶 贷 ;劣势 十 ， 每 个 工作 市 后 
计算 的 梯度 值 友 送 回 参 数 服 务 器 会 有 参数 更 新 的 冲突 ， 一 定 程度 上 会 影 
啊 算 法 的 收敛 速度 ， 在 损失 下 降 过 程 中 拌 动 较 大 。 





同步 更 新 和 异步 更 新 如 何 选 择 ? 有 没有 优化 方式 呢 ? 


同步 更 新 和 和 异步 更 新 的 实现 区 别 主要 在 于 更 新 参数 服务 占 的 参数 的 
打上 略 。 在 数据 量 小 ， 各 个 节点 的 计算 能 力 比较 均衡 的 情况 下 ， 推 荐 使 用 
同步 模式 ， 在 数据 量 很 大 ， 各 个 机 器 的 计算 性 能 参半 不 齐 的 情况 下 ， 推 
荐 使 用 异步 模式 。 有 具体 使 用 哪 一 种 还 可 以 看 实验 结果 ， 一 般 数据 量 足 够 
大 的 情况 下 异步 更 新 效果 会 更 好 。 








为 了 解决 有 些 工 作 市 点 计算 比较 慢 的 问题 ， 可 以 使 用 多 一 些 工 作 市 
上 点。 例如， 让 工作 节点 总 数 变 为 n +n x5%，n 为 集群 工作 节点 数 。 异 步 
更 新 可 以 设 定 为 在 接受 到 n 个 工作 市 点 的 参数 后 ， 可 以 直接 更 新 参数 服 
务 器 上 的 模型 参数 ， 进 入 下 一 个 批 次 的 模型 训练 。 计 算 比 较 慢 的 节点 上 
训练 出 来 的 参数 直接 被 丢弃 。 我 们 称 这 种 方法 为 市 备份 的 Sync- 
SGD (Sync-SGD with backup) 。 





在 Jianmin Chen, Xinghao Pan, Rajat Monga, Samy Bengio 和 Rafal 
JozefowiczHJi& x. (Revisiting Distributed Synchronous SGD》 中 ， 作 者 


基于 ImageNet 数 据 集 用 TensorFlow 的 Async-SGD、Sync-SGD、 带 备份 的 
Sync-SGD 模 式 做 了 1000 种 图 片 的 分 类 训练 。 实 验 环 境 分 别 为 50、100 和 
200 个 工作 节点 ， 运 行 在 NVIDIA K40 GPU 上 。 图 14-6 展 示 的 是 50、100 
和 200 个 工作 节点 ， 用 上 述 3 种 模型 的 训练 结果 。 





图 14-6 [9] 





可 以 看 出 增加 两 个 备份 节点 ， 再 备份 的 Sync-SGD 模 型 可 以 快速 提 
升 模型 训练 速度 。 从 图 14-6 所 示 的 50 个 工作 节点 的 情况 可 以 看 出 ，Sync- 
SGD 模 型 比 Async-SGD 模 型 大 概 提 升 了 25% 的 训练 速度 ， 以 及 0.48% 的 
准确 度 。 





而 且 随 着 工作 节点 数目 的 增多 ， 训 练 时 间 会 极 大 缩短 。 如 图 14-7 所 
示 ， 采 用 Async-SGD 算 法 ， 分 别 用 25、50、100 和 200 个 节点 ，200 个 节 
点 的 训练 时 间 是 采用 25 个 节点 的 训练 时 间 的 V8， 说 明 分 布 式 的 
TensorFlow 能 够 提升 大 规模 训练 的 效率 。 











工作 节点 数 测试 准确 率 (%) 时 间 小时) 











78.04 22.94 


ee ee 
图 14-7 H0] 


理解 了 参数 更 新 的 机 制 ， 还 有 很 重要 的 一 步 ， 训 练 时 数据 是 如 何 分 
AJ LTEA ex ERE? 


同步 更 新 与 异步 更 新 有 网 内 模式 Cin-graph pattern) 和 图 间 模 式 
(between-graph pattern) 两 种 模式 ， 是 独立 于 图 内 Cin-graph) 和 图 间 
(between-graph) 的 概念 ， 也 就 是 说 无 论 是 图 内 还 是 图 间 都 可 以 实现 同 

步 更 新 和 异步 更 新 ， 只 是 实现 代码 上 会 有 些 差异 。 














图 内 复制 (in-graph replication) 是 指 所 有 操作 (operation〉 都 在 
同一 个 图 中 ， 用 一 个 客户 并 来 生成 图 ， 然 后 把 所 有 操作 分 配 到 集群 的 所 
有 参数 服务 器 和 工作 节点 上 。 图 内 复制 和 单机 多 卡 有 点 类 似 ， 是 扩展 
到 了 多 机 多 卡 ， 但 是 数据 分 发 还 是 在 客户 端 一 个 节点 上 。 这 种 方式 的 优 
势 是 计算 节点 只 需要 调用 join() 疯 数 等 竺 任务 ， 客 户 端 随时 提交 数据 就 
可 以 训练 。 但 务 势 是 训练 数据 的 分 发 在 一 个 节点 上 ， 要 分 发 给 不 同 的 工 
作 节 点 ， 严 重 影响 并 发 训练 速度 。 因 此 ， 在 数据 量 很 大 的 情况 下 ， 不 推 
荐 使 用 这 种 模式 。 








图 间 复 制 (between-graph replication) 与 图 内 复制 对 应 ， 是 指 每 一 
个 工作 节点 创建 一 个 图 ， 训 练 的 参数 保存 在 参数 服务 器 ， 数 据 不 用 分 
发 ， 各 个 工作 节点 独立 计算 ， 计 算 完 成 后 ， 把 要 更 新 的 参数 告诉 参数 服 
务 器 ， 参 数 服 务 器 来 更 新 参数 。 这 种 模式 的 优势 是 不 需要 数据 分 发 ， 各 
个 工作 节点 都 会 创建 图 和 读 取 数据 进行 训练 。 劣 势 是 工作 节点 既是 图 的 
创建 者 又 是 计算 任务 的 执行 者 ， 如 果 某 个 工作 节点 宕 机 会 影响 集群 的 工 














作 。 这 种 模式 是 在 数据 量 在 TB 级 的 时 候 ， 并 发 性 能 很 高 。 因 此 ， 大 数 
据 相 关 的 深度 学 习 还 是 推荐 使 用 图 间 模 式 。 在 14.6 节 的 对 MNIST 进 行 分 
布 式 训练 的 例子 中 ， 我 们 就 采用 了 这 种 方式 。 





14.3.3 ”模型 并 行 


还 可 以 对 模型 进行 切 分 ， 让 模型 的 不 同 部 分 执行 在 不 同 的 设备 上 ， 
这 样 一 个 批 次 样本 可 以 在 不 同 的 设备 上 同时 执行 。 为 了 充分 利用 同一 台 
设备 的 计算 能 力 ，TensorFlow 会 尽量 让 相 邻 的 计算 在 同一 台 设 备 上 完成 
来 节省 网 络 开 销 。 如 图 14-8 所 示 ， 这 是 一 个 LSTM 模 型 ， 展 示 一 个 批 次 
的 样本 在 设备 1、 设 备 2、 设 备 3 同 时 训练 ， 分 别 执行 模型 的 不 同 部 分 ， 
分 别 训练 出 P1、P2、P3 三 个 不 同 的 参数 。 


图 14-8 HH 
本 节 的 模型 并 行 和 数据 并 行 ， 说 明 在 TensorFlow 中 ， 计 算 可 以 分 


离 ， 参 数 也 可 以 分 离 。 可 以 在 每 个 设备 上 分 配 计算 节点 ， 然 后 让 其 对 应 
的 参数 也 在 该 设备 上 ， 让 计算 和 参数 放 在 一 起 。 


14.4 分布 式 API IU? 


创建 集群 的 方法 是 为 每 一 个 任务 (task)〉 启动 一 个 服务 (工作 节点 
IRA EN AIRS) 。 这 些 任务 可 以 分 布 在 不 同 的 机 器 上 ， 也 可 以 同 
一 台 机 器 启动 多 个 任务 ， 使 用 不 同 的 GPU 来 运行 。 每 个 任务 会 完成 以 下 
工作 。 


(1) 创建 一 个 tt.train.ClusterSpec， 用 于 对 集群 中 的 所 有 任务 进行 
描述 ， 该 摘 述 内 容 对 所 有 任务 应 该 是 相同 的 。 


(2) 创建 一 个 tt.train.Server， 用 于 创建 一 个 服务 ， 并 运行 相应 作业 
上 的 计算 任务 。 





TensorFlow 的 分 布 式 开发 API 主 要 包括 以 下 几 个 。 


(1) tf.train.ClusterSpec({"ps": ps hosts, "worker": worker hosts]). 
创建 TensorFlow 集 群 描 述 信 息 ， 其 中 ps 和 worker 为 作业 名 称 ，ps_hosts 和 
worker_hosts 为 该 作业 的 任务 所 在 节点 的 地 址 信息 。 表 14-1 中 个 给 出 了 
两 个 示例 ，tf.train.ClusterSpec 的 传 入 参数 是 作业 和 任务 之 间 的 关系 映 
射 ， 该 映射 关系 中 的 任务 是 通过 了 地址 和 端口 号 表示 的 。 


表 14-1 


tf.train.ClusterSpec 结 构 可 用 任务 





tf.train.ClusterSpec( { "local": /job:local/task:0 
["localhost:2222", "localhost:2223" ] } ) /job:local/task:1 


tf.train.ClusterSpec ( { 
"worker": [ 


"worker0.example.com:2222", 


/job:worker/task:0 
"workerl.example.com:2222", 


/job:worker/task:1 


"worker2.example.com:2222" /job:worker/task:2 
], /job:ps/task:0 
"ps": [ /job:ps/task:1 
"ps0.example.com:2222", 
"ps1.example.com:2222" 
]3) 





(2) tf.train.Server(cluster, job name, task_index)。 创 建 一 个 服务 
( 主 节点 服务 或 者 工作 节点 服务 ) ， 用 于 运行 相应 作业 上 的 计算 任务 ， 
运行 的 任务 在 task_index 指 定 的 机 器 上 启动 。 例 如 ， 在 本 地 的 2222 和 
2223 两 个 端口 上 配置 不 同 的 任务 : 








# 在 任务 6: 
cluster = tf.train.ClusterSpec({"local": ["localhost:2222", "localhost:222 
3"]}) 


server = tf.train.Server(cluster, job name-"local", task index-0) 

8 在 任务 1: 

cluster = tf.train.ClusterSpec({"local": ["localhost:2222", "localhost:222 
3"]}) 


server = tf.train.Server(cluster, job name-"local", task_index=1) 








但 是 ， 这 种 做 法 还 需要 手动 配置 节点 ， 无 法 实现 动态 的 扩容 或 缩 
容 。 当 集群 规模 比较 大 时 ， 就 需要 使 用 自动 化 的 管理 节点 、 监 控 节 点 的 
工具 ， 如 集群 管理 工具 Kubernetes〈 第 17 章 中 会 讲解 TensorFlow 在 
Kubernetes 上 的 部 晋 和 应 用 ) 。 


(3) tf.device(device_name_or function)。 设 定 在 指定 的 设备 上 执行 
张 量 运 算 ， 指 定 代码 运行 在 CPU 或 GPU 上 。 示 例如 下 : 


# 指 定 在 task6 所 在 的 机 器 上 执行 Tensor 的 操作 运算 





with tf.device("/job:ps/task:0"): 
weights_1 = tf.Variable(...) 
biases 1 = tf.Variable(...) 





14.5 ”分布 式 训练 代码 框架 


下 面 展示 将 如 何 创建 一 个 TensorFlow 服 务 器 集群 ， 以 及 如 何在 该 集 
群 中 分 布 式 计算 一 个 数据 流 图 。TensorFlow 分 布 式 集群 的 所 有 节点 执行 
的 代码 都 是 相同 的 。 分 布 式 任务 代码 具有 固定 的 结构 : 

















# 第 1 步 : 命令 行 参数 解析 ， 获 取 集 群 的 信息 ps_hosts 和 worker_hosts， 

# 以 及 当前 节点 的 角色 信息 job_name 和 task_index。 例 如 : 

tf.app.flags.DEFINE string("ps hosts", "", "Comma-separated list of hostna 
me:port pairs") 

tf.app.flags.DEFINE string("worker hosts", 
stname:port 











; "Comma-separated list of ho 


pairs") 
tf.app.flags.DEFINE string("job name", ; "One of 'ps', 'worker'") 
tf.app.flags.DEFINE integer("task index", @, "Index of task within the job 
") 
FLAGS = tf.app.flags.FLAGS 
ps_hosts = FLAGS.ps_hosts.split(",") 
worker_hosts = FLAGS.worker_hosts(",") 


# 第 2 步 : 创建 当前 任务 节点 的 服务 器 

cluster = tf.train.ClusterSpec({"ps": ps_hosts, "worker": worker_hosts}) 
server = tf.train.Server(cluster, job name-FLAGS.job name, task_index=FLAG 
S.task_index) 


























# 第 3 步 : 如 果 当 前 节点 是 参数 服务 器 ， 则 调用 server. join() 无 休止 等 待 ， 如 果 是 工作 节点 
， 则 执行 第 4 步 
if FLAGS.job_name == "ps": 

server. join() 








# 第 4 步 : 构建 要 训练 的 模型 ， 构 建 计 算 图 
elif FLAGS.job_name == "worker": 
# build tensorflow graph model 





第 5 步 : 创建 tf.train.Supervisor 来 管理 模型 的 训练 过 程 
创建 一 个 supervisor 来 监督 训练 过 程 








# 
# 


























sv = tf.train.Supervisor(is chief-(FLAGS.task index == 0), logdir="/tmp/tr 
ain logs") 

# supervisor 负 责 会 话 初始 化 和 从 检查 点 恢复 模型 

sess = sv.prepare or wait for session(server.target) 


# 开始 循环 ， 直 到 supervisor 停 止 





while not sv.should_stop() 
# 训练 模型 





现在 我 们 就 根据 本 节 所 讲 的 TensorFlow 分 布 式 训练 代码 框架 ， 来 看 
看 如 何 对 MNIST 进 行 分 布 式 训练 。 对 于 上 述 代 码 框 架 ， 我 们 要 编写 的 主 
要 有 两 部 分 : 构建 TensorFlow 图 模型 的 代码 ， 以 及 每 一 步 执行 训练 的 代 
fi, 


14.6 4) 4p Xe EE Sc US 


本 节 采 用 图 14-9 所 示 的 结构 对 MNIST 数 据 集 进行 分 布 式 训 练 。 我 们 
在 本 机 上 开设 3 个 端口 作为 分 布 式 工作 节点 的 部 署 ，2222 端 口 为 参数 服 
务 器 ，2223 端 口 为 工作 节点 0，2224 端 口 为 工作 节点 1。 参 数 服 务 器 执行 
参数 更 新 任务 ， 工 作 节点 0 和 工作 节点 1 执行 图 模型 训练 计算 任务 。 














图 14-9 


我 们 先 来 运行 代码 ， 看 看 结果 什么 样 。 开 局 3 个 终端 ， 分 别 运行 : 





python mnist replica.py --job name-"ps" --task_index=@ 
python mnist replica.py --job name-"worker" --task_index=@ 
python mnist replica.py --job name-"worker" --task index-1 





在 开启 参数 服务 器 (ps) 的 终端 里 ， 结 果 如 下 ; 





Job name = ps 

task index = 0 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 
GrpcChannel 

Cache for job ps -» (0 -> localhost:2222} 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 
GrpcChannel 

Cache for job worker -» (0 -» localhost:2223, 1 -» localhost:2224) 

I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:217] Started 
server 


with target: grpc://localhost:2222 





然后 该 进程 挂 起， 等 待 工作 节点 服务 中 的 进程 开始 训练 。 





我 们 一 共 进 行 200 次 欠 代 ， 工 作 节 点 1 执行 了 169 次 欠 代 ， 计 算 输 出 
如 下 : 





job name = worker 

task index = 0 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 
GrpcChannel 

Cache for job ps -» (0 -> localhost:2222} 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 
GrpcChannel 

Cache for job worker -» (0 -» localhost:2223, 1 -> localhost:2224) 

I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:217] Started 
server 

with target: grpc://localhost: 2223 

Worker 0: Initializing session... 

I tensorflow/core/distributed runtime/master session.cc:994] Start master 
session 

0d791a302977e5701 with config: 

device filters: "/job:ps" 

device filters: "/job:worker/task:0" 

allow soft placement: true 


Worker 0: Session initialization complete. 

Training begins @ 1483516057.489495 

1483516057.518419: Worker 0: training step 1 done (global step: 0) 
1483516057.541053: Worker 0: training step 2 done (global step: 1) 
1483516057.569677: Worker training step 3 done (global step: 2) 
1483516057.584578: Worker training step 4 done (global step: 3) 
1483516057.646970: Worker training step 5 done (global step: 4) 

# .…. 中 间 略 去 

1483516059.286596: Worker 6: training step 166 done (global step: 197) 
1483516059.291600: Worker 0: training step 167 done (global step: 198) 
1483516059.297347: Worker @: training step 168 done (global step: 199) 


1483516059.303738: Worker 0: training step 169 done (global step: 200) 
Training ends @ 1483516059. 303808 

Training elapsed time: 1.814313 s 

After 200 training step(s), validation cross entropy = 1235.56 








LE u294T 34005848, ZR: 





job name - worker 

task index - 1 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 
GrpcChannel 

Cache for job ps -» (0 -> localhost:2222} 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 
GrpcChannel 

Cache for job worker -» (0 -» localhost:2223, 1 -> localhost:2224} 

I tensorflow/core/distributed runtime/rpc/grpc server lib.cc:217] Started 
server 

with target: grpc://localhost:2224 

Worker 1: Waiting for session to be initialized... 

I tensorflow/core/distributed runtime/master session.cc:994] Start master 
session 

92e671f3dd1ffd05 with config: 

device filters: "/job:ps" 

device filters: "/job:worker/task:1" 

allow soft placement: true 


Worker 1: Session initialization complete. 
Training begins @ 1483516058.803010 
1483516058.832164: Worker 1: training step 1 done (global step: 121) 


1483516058.844464: Worker 1: training step 2 done (global step: 123) 
1483516058.860988: Worker 1: training step 3 done (global step: 126) 
1483516058.873543: Worker 1: training step 4 done (global step: 128) 
1483516058.884758: Worker 1: training step 5 done (global step: 130) 
# .…. 中 间 略 去 

1483516059.152332: Worker 1: training step 36 done (global step: 176) 
1483516059.167606: Worker 1: training step 31 done (global step: 178) 
1483516059.177215: Worker 1: training step 32 done (global step: 180) 
1483516059.301384: Worker 1: training step 33 done (global step: 182) 
1483516059.309557: Worker 1: training step 34 done (global step: 202) 


Training ends @ 1483516059. 309638 
Training elapsed time: 0.506628 s 
After 200 training step(s), validation cross entropy - 1235.56 





下 面 我 们 一 起 来 看 一 下 如 何 用 代码 实现 在 MNIST 上 进行 分 布 式 训 
练 。 


首先 ， 定 义 一 些 第 量 ， 用 于 构建 数据 流 图 : 





flags = tf.app.flags 
flags.DEFINE string("data dir", "/tmp/mnist-data", "Directory for storing 
mnist data") 
# 只 下 载 数据 ， 不 做 其 他 操作 
flags.DEFINE boolean("download only", False, 
"Only perform downloading of data; Do not proceed to 





"session preparation, model definition or training") 
# task_index 从 9 开始 。8 代 表 用 来 初始 化 变量 的 第 一 个 任务 
flags.DEFINE_integer("task_index", None, 
"Worker task index, should be >= 0. task index-0 is 
"the master worker task the performs the variable " 
"initialization ") 
# 每 台 机 器 的 GPU 个 数 ， 这 里 在 前 述 Mac 笔 记 本 上 运行 ， 因 此 为 8 
flags.DEFINE integer("num gpus", 0, 
"Total number of gpus for each machine." 
"If you don't use GPU, please set it to '0'") 
# 在 同步 训练 模式 下 ， 设 置 收集 的 工作 节点 的 数量 。 默 认 就 是 工作 节点 的 总 数 
flags.DEFINE integer("replicas to aggregate", None, 
"Number of replicas to aggregate before parameter upd 
































ate 
"is applied (For sync replicas mode only; default: " 
"num workers)") 

flags.DEFINE integer("hidden units", 100, 
"Number of units in the hidden layer of the NN") 

# 训练 的 次 数 

flags.DEFINE integer("train steps", 200, 
"Number of (global) training steps to perform") 


flags.DEFINE integer("batch size", 100, "Training batch size") 
flags.DEFINE float("learning rate", 0.01, "Learning rate") 
# 使 用 同步 训练 /异步 训练 
flags.DEFINE boolean("sync replicas", False, 
"Use the sync_replicas (synchronized replicas) mode, 








"wherein the parameter updates from workers are aggre 
gated " 
"before applied to avoid stale gradients") 
# 如 果 服 务 器 已 经 存在 ， 采 用 gRPC 协 议 通信 ;如果 不 存 在 ， 采 用 进程 间 通 信 
flags.DEFINE boolean( 
"existing servers", False, "Whether servers already exists. If True, " 
"will use the worker hosts via their GRPC URLs (one client process " 
"per worker host). Otherwise, will create an in-process TensorFlow 
"server.") 
# 参数 服务 器 主机 
flags.DEFINE string("ps hosts","localhost:2222", 
"Comma-separated list of hostname:port pairs") 























# 工作 节点 主机 

flags.DEFINE string("worker hosts", "localhost:2223,localhost:2224", 
"Comma-separated list of hostname:port pairs") 

# 本 作业 是 工作 节点 还 是 参数 服务 器 


flags.DEFINE string("job name", None,"job name: worker or ps") 








FLAGS - flags.FLAGS 
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下 面 我们 就 从 命令 行 参数 中 读 取 参数 服务 器 和 工作 节点 的 主机 信 
用 tf.train.ClusterSpec 来 创建 TensorFlow 的 集群 描述 





# 读 取 集 群 的 描述 信息 
ps spec = FLAGS.ps hosts.split(",") 
worker spec = FLAGS.worker hosts.split(",") 








# 创建 TensorFlow 集 群 描述 对 象 
cluster = tetur CU enone 


ps": pS_spec, 























"worker": worker_spec}) 





为 本 地 执行 的 任务 创建 TensorFlow 的 Server 对 象 。 


if not FLAGS.existing servers: 
# 创建 本 地 Sever 对 象 ， 从 tf.train.Server 这 个 定义 开始 ， 每 个 节点 开始 不 同 
# 根据 执行 的 命令 的 参数 (作业 名 字 ) 不 同 ， 决 定 了 这 个 任务 是 哪个 任务 
# 如 果 作 业 名 字 是 ps， 进 程 就 加 入 这 里 ， 作 为 参数 更 新 的 服务 ， 等 竺 其 他 工作 
区 参数 更 新 的 数据 
# 如 果 作 业 名 字 是 worker， 就 执行 后 面 的 计算 任务 
server = tf.train.Server(cluster, job name-FLAGS.job name, 
task_index=FLAGS.task_index) 
# 如 果 是 参数 服务 器 ， 直 接 启动 即 可 。 这 时 , 进程 就 会 阻塞 在 这 里 
# 下 面 的 tf.train.replica_device_setter 代 码 会 将 参数 指定 给 ps_server 保 
if FLAGS.job_name == "ps": 
server. join() 

























































































下 面 需要 处 理工 作 节 点 : 








# 找 出 worker 的 主 节点 ， 即 task_index 为 6 的 点 
is chief = (FLAGS.task index == 0) 








# 如 果 使 用 gpu 
if FLAGS.num gpus > @: 
if FLAGS.num gpus « num workers: 
raise ValueError("number of gpus is less than number of workers") 
gpu = (FLAGS.task index % FLAGS.num gpus) 
# 分 配 worker 到 指定 的 gpu 上 运行 
worker_device = "/job:worker/task:%d/gpu:%d" % (FLAGS.task_index, gpu) 
# 如 果 使 用 cpu: 
elif FLAGS.num_gpus == 














# 把 cpu 分 配给 worker 
cpu = 0 
worker device = "/job:worker/task:%d/cpu:%d" % (FLAGS.task index, cpu) 





我 们 使 用 tf.train.replica_device_setter 将 涉及 变量 的 操作 分 配 到 参数 





服务 器 上 ， 并 使 用 CPU; 将 涉及 非 变 量 的 操作 分 配 到 工作 节点 上 ， 使 用 
上 一 步 worker_device 的 值 。 











# 在 这 个 with 语句 之 下 定义 的 参数 ， 会 自动 分 配 到 参数 服务 器 上 去 定义 
如 果 有 多 个 参数 服务 器 ， 就 轮流 循环 分 配 
with tf.device( 
tf.train.replica_device_setter( 
worker_device=worker_device, 
ps_device="/job:ps/cpu:@", 
cluster=cluster)): 
# 定义 全 局 步 长 ， 默 认 值 为 8 
global step = tf.Variable(0, name-"global step", trainable-False) 












































# 定义 隐藏 层 参数 变量 ， 这 里 是 全 连接 神经 网 络 隐藏 层 
hid w = tf.Variable( 
tf.truncated normal( 
[IMAGE PIXELS * IMAGE PIXELS, FLAGS.hidden units], 
stddev-1.0 / IMAGE PIXELS), 
name-"hid w") 
hid b = tf.Variable(tf.zeros([FLAGS.hidden units]), name-"hid b") 











# 定义 Softmax 回 归 层 的 参数 变量 
sm w = tf.Variable( 
tf.truncated normal( 
[FLAGS.hidden units, 10], 
stddev-1.0 / math.sqrt(FLAGS.hidden units)), 
name="sm_w" 
sm b = tf.Variable(tf.zeros([10]), name="sm_b") 








# 定义 模型 输入 数据 变量 
x = tf.placeholder(tf.float32, [None, IMAGE PIXELS * IMAGE PIXELS]) 
y = tf.placeholder(tf.float32, [None, 10]) 





# 构建 隐藏 层 
hid lin = tf.nn.xw plus b(x, hid w, hid b) 
hid = tf.nn.relu(hid lin) 





# 构建 损失 函数 和 优化 器 
y = tf.nn.softmax(tf.nn.xw plus b(hid, sm_w, sm b)) 
cross entropy = -tf.reduce sum(y * tf.log(tf.clip by value(y, 1e-10, 


1.0))) 


# 异步 训练 模式 : 自己 计算 完 梯 度 就 去 更 新 参数 ， 不 同 副 本 之 间 不 会 去 协调 进度 
opt = tf.train.AdamOptimizer(FLAGS. learning rate) 


























# 同步 训练 模式 
if FLAGS.sync_replicas: 
if FLAGS.replicas_to_aggregate is None: 
replicas to aggregate = num workers 
else: 
replicas to aggregate - FLAGS.replicas to aggregate 
# 使 用 SyncReplicasoptimizer 作 为 优化 器 ， 并 且 是 在 图 间 复 制 情况 下 
# 在 图 内 复制 情况 下 将 所 有 的 梯度 平均 就 可 以 了 
opt = tf.train.SyncReplicasOptimizer ( 
opt, 
replicas to aggregate-replicas to aggregate, 
total num replicas-num workers, 
name-"mnist sync replicas") 





























train step - opt.minimize(cross entropy, global step-global step) 


if FLAGS.sync replicas: 
local init op = opt.local step init op 
if is chief: 
# 所 有 的 进行 计算 的 工作 节点 里 的 一 个 主 工作 节点 (chief) 
# 这 个 主 节点 负责 初始 化 参数 、 模 型 的 保存 、 概 要 的 保存 等 
local_init_op = opt.chief_init_op 











ready for local init op = opt.ready for local init op 











# 同步 训练 模式 所 需 的 初始 令 牌 和 主队 列 
chief queue runner = opt.get chief queue runner() 
sync init op - opt.get init tokens op() 





init op = tf.global variables initializer() 
train dir = tempfile.mkdtemp() 


if FLAGS.sync replicas: 
# 创建 一 个 监管 程序 ， 用 于 统计 训练 模型 过 程 中 的 信息 














# logdir 是 保存 和 加 载 模 型 的 路 径 

# 启动 就 会 去 这 个 logdir 目 录 看 是 否 有 检查 点 文件 ， 有 的 话 就 自动 加 载 
# 没有 就 用 init_op 指 定 的 初始 化 参数 
# ETETA (chief) 负责 模型 参数 初始 化 等 工作 

# 在 这 个 过 程 中 ， 其 他 工作 节点 等 待 主 节点 完成 初始 化 工作 ， 初 始 化 完成 后 ， 一 起 开 















































台 训练 数据 


# global_step 的 值 是 所 有 计算 节点 共享 的 
8 在 执行 损失 函数 最 小 值 的 时 候 会 自动 加 1， 通 过 global_step 能 知道 所 有 计算 节点 














一 共计 算 了 多 少 步 


]) 


sv - tf.train.Supervisor( 
is chief-is chief, 
logdir-train dir, 
init op-init op, 
local init op-local init op, 
ready for local init op-ready for local init op, 
recovery wait secs-1, 
global step-global step) 
else: 
sv - tf.train.Supervisor( 
is chief-is chief, 
logdir-train dir, 
init op-init op, 
recovery wait secs-1, 
global step-global step) 
# 在 创建 会 话 时 ， 设 置 属性 allow_soft_placement 为 True 
# 所 有 的 操作 会 默认 使 用 其 被 指定 的 设备 ， 如 GPU 
# 如 果 该 操作 函数 没有 GPU 实现 时 ， 会 自动 使 用 CPU 设备 
sess config = tf.ConfigProto( 
allow soft placement-True, 
log device placement-False, 
device filters-["/job:ps", "/job:worker/task:%d" % FLAGS.task index 














# 主 工作 节点 (chief) ， 即 task_index 为 8 的 节点 将 会 初始 化 会 话 
# 其 余 的 工作 节点 会 等 待 会 话 被 初始 化 后 进行 计算 
if is chief: 





























print("Worker Xd: Initializing session..." % FLAGS.task index) 
else: 
print("Worker %d: Waiting for session to be initialized..." % 


FLAGS.task index) 


if FLAGS.existing servers: 
server grpc url = "grpc://" + worker spec[FLAGS.task index] 
print("Using existing server at: ^s" X server grpc url) 


# 创建 TensorFlow 会 话 对 象 ， 用 于 执行 TensorFlow 图 计算 
# prepare or wait for_session 需 要 参数 初始 化 完成 且 主 节点 也 准备 好 后 ， 才 开 











台 训 


练 


sess = sv.prepare or wait for session(server grpc url, config-sess c 


onfig) 


fig) 


else: 
Sess - sv.prepare or wait for session(server.target, config-sess con 


print("Worker Xd: Session initialization complete." % FLAGS.task index 


if FLAGS.sync replicas and is chief: 
sess.run(sync init op) 
sv.start queue runners(sess, [chief queue runner]) 


# 执行 分 布 式 模型 训练 
time begin = time.time() 
print("Training begins @ %f" % time begin) 


local step - 0 

while True: 
# 读 入 MNIST 的 训练 数据 ， 默 认 每 批 次 为 198 张 图 片 
batch_xs, batch_ys = mnist.train.next_batch(FLAGS.batch_size) 
train_feed = {x: batch_xs, y_: batch_ys} 


_, step = sess.run([train_step, global_step], feed_dict=train_feed) 
local step += 1 


now = time.time() 
print("%f: Worker Xd: training step %d done (global step: %d)" % 
(now, FLAGS.task index, local step, step)) 


if step »- FLAGS.train steps: 
break 


time end = time.time() 

print("Training ends @ Xf" % time end) 

training time - time end - time begin 
print("Training elapsed time: %f s" % training time) 


# DLAMNISTH IS UE. Thee HAC XO 

val_feed = {x: mnist.validation.images, y_: mnist.validation. labels} 

val xent = sess.run(cross_ entropy, feed dict-val feed) 

print("After %d training step(s), validation cross entropy = %g" % 
(FLAGS.train steps, val xent)) 











147 he 





本 章 主 要 介绍 了 TensorFlow 的 分 布 式 原理 、 分 布 式 架构 、 分 布 式 模 
式 等 知识 ， 以 及 TensorFlow 实 现 分 布 式 所 需要 的 API， 整 理 了 
TensorFlow 分 布 式 训练 代码 的 框架 结构 ， 最 后 以 MNIST 为 例 讲解 了 实现 
4) i NETZE e 
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第 15 章 ”TensorEFlow 线 性 代数 编译 框架 XLA 


XLA (Accelerated Linear Algebra) 是 用 于 线性 代数 领域 的 专用 编译 
器 〈domain-specific compiler) ， 用 于 优化 TensorFlow 计 算 。XLA 通 过 即 
时 (just-in-time, JIT) 编译 或 提前 Cahead-of-time, AOT) 编译 来 进 
行 实 验 ， 尤 其 有 助 于 面向 人 硬件 加 速 的 开发 者 。XLA 框 架 目 前 还 是 处 于 试 
验 阶 段 的 。 





本 章 我 们 主要 讲述 XLA 的 优势 、 工 作 原 理 和 XLA 的 一 些 应 用 。 H 


15.1 XLA 的 优势 


FAS 


XLA 是 一 个 线性 代数 的 领域 专用 编译 器 ， 能 在 执行 速度 、 内 存 的 使 
对 目 定义 操作 的 依赖 、 移 动 端的 内 存 占 用 和 可 移植 性 等 方面 优化 了 


TensorFlow 的 计算 。 


提高 执行 速度 。 通 过 编译 子 图 来 减少 生命 周期 较 短 的 操作 的 执行 时 
间 ， 通 过 融合 管道 化 的 操作 来 减少 内 存 占 用 。 

提高 内 存 的 使 用 。 分 析 和 规划 内 存 的 使 用 需求 ， 消 除 许多 中 间 结 
的 缓存 。 

减少 对 自 定 义 操 作 的 依赖 。 通 过 提高 自动 化 融合 底层 操作 Clow- 
level op 的 性 能 ， 达 到 原先 需要 手动 融合 自 定义 操作 Ccustom 
op) 的 效果 。 














BU CAOT) 编译 子 图 来 减少 TensorFlow 的 执行 时 间 ， 二 是 通过 共享 
头 文件 对 《如 xxx.0 和 xxx.h) 被 其 他 程序 直接 链接 。 这 两 个 操作 能 
够 使 移动 端 预测 的 内 存 占 用 减少 几 个 数量 级 。 

提高 可 移植 性 。 可 以 用 XLA 为 新 的 硬件 设备 开 有 一 个 新 的 后 端 ， 使 
TensorFlow 不 需要 更 改 很 多 代码 就 可 以 用 在 新 的 硬件 设备 上 。 











15.2 XLA 的 工作 原理 


学 过 C 语 言 的 人 可 能 知道 ，LLVM 是 一 个 编译 器 的 框架 系统 ， 用 
C++ 编写 而 成 ， 用 于 优化 以 任意 编程 语言 编号 的 程序 的 编译 时 间 
(compile time) 、 链 接 时 间 Cink time) 、 运 行 时 间 (runtime) 以 及 
空闲 时 间 Gidle time) 。 [A 


在 基于 LLVM 的 编译 器 中 ， 前 端 负责 解析 、 验 证 和 诊断 输入 代码 中 
的 错误 ， 然 后 将 解析 的 代码 转换 为 LLVM 中 间 表 示 Cintermediate 
representation, IR) 。 该 IR 通 过 一 系列 分 析 和 优化 过 程 来 改进 代码 ， 然 
后 发 送 到 代码 生成 器 中 ， 以 产生 本 地 机 器 代码 。 如 图 15-1 所 示 ， 这 是 一 
个 非常 直接 的 三 相 设 计 的 LLVM 实 现 。 设 计 中 最 重要 的 是 LLVM IR， 在 
编译 器 中 IR 被 用 来 表示 代码 。 





图 15-1 [3] 





XLA 的 输入 语言 称 为 HLO IR，XLA 使 用 在 HLO 中 定义 的 图 形 ， 并 
将 它们 编译 成 各 种 体系 结构 的 机 器 指令 。 图 15-2 展 示 的 是 XLA 中 的 编译 


jpg Ui 


15-22 


如 图 15-2 所 示 ，XLA 首 先进 行 目 标 无 关 的 优化 和 分 析 ， 如 公共 子 表 
达 式 消除 (common subexpression elimination, CSE) 、 目 标 无 关 的 操 
作 融 合 〈 如 将 多 个 操作 融合 成 一 个 操作 ) 和 运行 时 内 存 的 缓冲 区 分 析 


FY 
等 。 


接着 ，XLA 将 HLO 计 算 发 送 到 后 端 。 后 端 执行 进一步 的 HLO 级 目标 
相关 的 优化 和 分 析 。 例 如 ，XLA GPU 后 端 可 以 执行 对 GPU 编程 模型 有 
葵 的 操作 融合 ， 并 且 确 定 如 何 将 计算 划分 成 流 。 


下 一 步 是 生成 目标 特定 的 代码 。XLA 里 面 的 CPU 和 GPU 后 端 使 用 
LLVM 进 行 中 间 表 示 、 优 化 及 代码 生成 。 这 些 后 端 用 LLVM IR 来 表示 
XLA HLO 计 算 。 


XLA 目 前 支持 在 x86-64 和 NVIDIA GPU 上 进行 JIT 编 译 ， 以 及 在 x86- 
64 和 ARM 上 进行 AOT 编 译 。 因 此 ，AOT 编 译 方式 更 适合 移动 端 和 髓 入 


式 的 深度 学 习 使 用 。 下 面 我 们 就 以 JIT 编 译 为 例 进 行 次 明 。 


15.3 ”JIT 编译 方式 


TensorFlow 的 XLA JIT 编 译 器 通过 XLA 编 译 和 运行 TensorFlow 计 算 
图 的 一 部 分 。 与 标准 TensorFlow 实 现 相 比 ，XLA 可 以 将 多 个 操作 (内 
核 ) 融合 到 少量 编译 内 核 中 ， 融 合 操 作 符 可 以 减少 存储 器 带宽 需求 并 提 
高 性 能 。 


通过 XLA 运 行 TensorFlow 计 算 有 两 种 方法 ， 一 是 打开 CPU 或 GPU 设 
备 上 的 JIT 编 译 ， 二 是 将 操作 符 放 在 XLA_CPU 或 XLA_GPU 设 备 上 。 


15.3.1 打开 JII 编 译 








打开 JII 编 译 可 以 有 两 种 方式 。 下 面 是 在 会 话 上 打开 ， 这 种 方式 会 
把 所 有 可 能 的 操作 符 编程 成 XLA 计 算 。 用 法 示例 如 下 : 


config = tf.ConfigProto() 
config.graph_options.optimizer_options.global_jit_level = tf.OptimizerOpti 
ons.ON 1 

sess = tf.Session(config=config) 





另 一 种 方式 是 为 一 个 或 多 个 操作 符 手 动 打 开 JIT 编 译 。 这 是 通过 使 
用 属性 _XlaCompile = true 标 记 要 编译 的 操作 符 来 完成 的 。 用 法 示例 如 
T 





jit_scope = tf.contrib.compiler.jit.experimental_jit_scope 


x = tf.placeholder(np.float32) 
with jit_scope(): 
y = tf.add(x, x) 





15.3.2 ”将 操作 符 放 在 XLA 设 备 上 
目前 有 效 的 设备 是 XLA CPUBKXLA GPU， 示 例如 下 : 


with tf.device("/job:localhost/replica:0/task:0/device:XLA GPU:0"): 
output = tf.add(input1, input2) 





15.4 JIT 编 译 在 MNIST 上 的 实现 


下 面 我 们 就 用 MNIST 的 softmax 版 本 来 尝试 使 用 XLA 和 不 使 用 XLA 
的 差异 。 代 码 位 于 tensorflow- 


1.1.0/tensorflow/examples/tutorials/mnist/mnist_softmax_xla.py 中 。 


不 使 用 XLA 来 运行 时 ， 如 下 : 


python mnist_softmax_xla.py --xla=false 





运行 完成 后 生成 时 间 线 文件 timeline.ctf.json， 使 用 Chrome 跟 踪 事 件 
分 析 器 在 浏览 器 中 访问 chrome://tracing) ， 打 开 该 时 间 线 文件 ， 呈 现 
的 时 间 线 如 图 15-3 所 示 。 
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图 15-3 


图 15-3 中 最 左 侧 一 列 列 出 了 本 机 的 4 个 GPU。 可 以 清晰 地 看 到 图 中 
MatMul 操 作 符 ， 路 越 4 个 CPU 的 时 间 消 耗 情 况 。 


让 我 们 使 用 XLA 来 训练 模型 ， 如 下 : 





TF_XLA_FLAGS=--xla_generate_hlo_graph=.* python mnist_softmax_xla.py 





运行 完成 后 ， 得 到 的 时 间 线 图 像 如 图 15-4 所 示 。 


[ome , jDims, , , jo2ms, , , (03m, , , jO04me, , , Jj05me, , , (06m, , , 
v /job:localhost/replica:0/task:0/cpu:0 Compute (pid 1) 





1 


图 15-4 





我 们 看 看 如 何 调用 JIT 编 译 ， 关 键 的 训练 代码 如 下 。 下 面 讲 解 了 如 
何 开 启 XLA 的 JIT 编 译 ， 以 及 如 何 将 训练 追踪 写 入 时 间 线 文件 。 





config = tf.ConfigProto() 
jit_level = @ 
if FLAGS.xla: 
# 开启 XLA 的 JIT 编 译 
jit_level = tf.OptimizerOptions.ON_1 








config.graph options.optimizer options.global jit level = jit level 
run metadata - tf.RunMetadata() 
sess - tf.Session(config-config) 
tf.global variables initializer().run(session-sess) 
# 训练 
train loops - 1000 
for i in range(train loops): 
batch xs, batch ys - mnist.train.next batch(100) 





# 在 最 后 一 次 循环 中 ， 创 建 时 间 线 文件 ， 可 以 用 chrome://tracing/ 打 开 和 分 析 
if i == train loops - 1: 
sess.run(train step, 
feed dict={x: batch xs, y_: batch ys}, 
options=tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE), 
run_metadata=run_metadata) 
trace = timeline. Timeline(step_ stats-run metadata.step stats) 
trace file = open('xlatimeline.ctf.json', 'w') 
trace file.write(trace.generate chrome trace format()) 


else: 
sess.run(train_step, feed dict-(x: batch xs, y : batch_ys}) 





目前 XLA 框 架 还 处 于 试验 阶段 ，AOT 主 要 应 用 场景 是 一 些 内 存 较 小 
的 骨 入 式 设备 、 手 机 、 树 莓 派 等 ， 对 于 性 能 要 求 较 高 的 读者 可 以 做 进 一 
步 探索 和 发 现 。 


15.5 小结 


AS EBA f TensorFlow Hy Ze IERA VERE AS XLATIS] E TE Ji E , 
JIT 编 译 和 AOT 编 译 的 适用 范围 ， 重 点 讲解 了 JIT 编 译 方式 的 两 种 实现 方 
法 。 最 后 用 MNIST 数 据 集 展现 了 如 何 使 用 JIT 编 译 。XLA 是 TensorFlow 
1.0 版 本 加 入 的 新 特性 ， 还 有 待 完善 。 本 章 重点 面向 开发 中 对 性 能 要 求 
较 高 的 开发 者 。 








[1] ”本 章 内 容 主 要 参考 TensorFlow 官 方 网 


站 : https://www.tensorflow.org/versions/master/experimental/xla/ 。 


[2] 参考 百度 百科 “LLVM”: http://baike.baidu.conylink? 
url=0c67Vs4dGqctjTSoQ9xpF2yWxmUxaj8SN4UhPAtq4t3xtai22h9- 
L3IY qSuabj9FYyJyfXvrqbllf80Sg19s . 


[3] 本 图 参考 http://www.aosabook.org/en/llvm.html . 


[4] ”本 图 参考 TensorFlow 官 方 网 


站 : https://www.tensorflow.org/versions/master/experimental/xla/ 。 


#16%  TensorFlow Debugger [1] 


TensorFlow Debugger (tfdbg) 是 TensorFlow 的 专用 调试 器 。 它 使 用 
世 点 和 计算 机 图 形 化 来 展现 实时 数据 流 ， 提 供 了 运行 TensorFlow 图 形 的 
内 部 结构 和 状态 的 可 视 化 。 这 种 可 视 化 非常 有 助 于 在 训练 和 推理 期 间 调 
试 各 种 类 型 的 模型 错误 。 








本 章 会 通过 讲解 如 何 调试 TensorFlow 模 型 开发 中 一 种 常见 的 错误 类 
型 一 一 非 数 字 (nan) 和 无 限 值 Gn) 导致 的 训练 失败 ， 来 展示 tfdbg 命 
令 行 界面 (command line interface, CLI) 的 功能 。 而 这 对 一 般 调 试 器 
《如 C++ 的 gdb 或 者 Python 的 pdb) 来 说 ， 是 很 难 调试 的 。 


此 外 ，TensorFlow 这 种 使 用 符号 式 编 程 的 语言 本 里 就 以 难 调 试 而 闻 
名 ， 没 有 经 验 的 开发 者 常常 很 难 直 观 地 感受 数据 流 图 在 做 什么 ， 因 此 ， 
出 现 了 问题 就 难以 定位 ， 更 谈 不 上 说 高 级 的 优化 任务 。 


16.1 Debugger 的 使 用 示例 


本 节 我 们 以 一 个 错误 运行 的 MNIST 训 练 为 例 ， 看 看 如 何 通 过 
TensorFlow Debugger 来 找到 出 错 的 地 方 ， 并 改正 。 源 代码 位 于 
tensorflow-1.1.0/tensorflow/python/debug/examples/debug_mnist.py。 我 们 
先 不 加 调试 器 ， 直 接 执行 ， 如 下 : 


python -m tensorflow.python.debug.examples.debug mnist 





也 可 以 进入 tensorflow-1.1.0/tensorflow/python/debug/examples 执 行 : 


python debug mnist.py 





经 过 10 次 训练 ， 结 果 如 下 : 
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Accuracy at step 8: 0.098 
Accuracy at step 9: 0.098 





可 以 看 出 ， 准 确 率 在 第 一 次 训练 时 有 所 上 升 ， 后 面 一 直 保 持 在 较 低 
的 水 平 。 





下 面 我 们 就 用 TensorFlow Debugger 来 尝试 调试 。 仪 需要 在 原 有 的 文 
件 中 加 上 下 面 3 行 代 码 ， 束 可 以 在 每 次 调用 run(0) 之 前 和 之 后 调用 基于 终 
端的 用 户 界 面 (UI〉， 来 控制 执行 和 检查 图 的 内 部 状态 : 





from tensorflow.python import debug as tf debug 


sess = tf debug.LocalCLIDebugWrapperSession(sess) 
sess.add tensor filter("has inf or nan", tf_debug.has_inf_or_nan) 





在 这 个 例子 中 ， 我 们 为 张 量 值 注册 了 一 个 过 滤器 has_inf or nan, 








它 能 够 判断 出 图 的 任何 中 间 张 量 中 是 否 有 nan 或 inf 值 。 


现在 我 们 就 开启 调试 模式 (debug) ， 找 出 准确 率 无 法 提高 的 原 
因 。 首 先 执 行 : 


python -m tensorflow.python.debug.examples.debug mnist -debug 


也 可 以 通过 如 下 方式 执行 : 


python debug_mnist.py --debug=True 





这 时 融 进 入 了 Debugger 的 界面 ， 如 图 16-1 所 示 。 


1 fetch Caccuracy/accurocy/Meon:0); 2 feeds 三 
exit 





图 16-1 


这 就 是 我 们 说 的 运行 开始 的 Ul Crun-start UD. 。 在 tfdbg> 后 面 可 以 


输入 交互 式 的 命令 ， 如 run() “〈 或 者 缩写 r) ， 就 可 以 进入 运行 结束 后 
UI (run-end UI) ， 如 图 16-2 所 示 。 





图 16-2 


企图 16-2 中 ， 可 以 看 到 ， 数 值 并 没有 异常 。 然 后 ， 可 以 通过 如 下 命 


tfdbg> run -t 10 


可 以 使 用 下 面 的 命令 直到 找 出 在 图 形 中 的 第 一 个 nan 或 者 inf 值 〈 这 
类 似 于 调试 中 的 打 断 点 ) 


tfdbg> run -f has_inf_or_nan 


结果 如 图 16-3 所 示 。 





图 16-3 


第 一 行 的 灰 底 字 (电脑 屏 秦 中 显示 为 红字 ) ， 表 示 tfdbg 在 调用 run() 
后 立即 停止 ， 生 成 了 通过 指定 过 滤器 has_inf or_nan 的 中 间 张 量 。 如 图 
16-3 所 示 ， 在 第 4 次 调用 run0 期 间 ， 有 36 个 中 间 张 量 包 含 inf 或 者 nan 值 ， 
首次 出 现在 cross_entropy/Log:0。 


单 击 图 中 的 cross_entropy/Log:0， 并 且 单 击 下 划 线 的 node_info 菜 单 
项 ， 仔 细 看 一 下 这 个 节点 的 输入 张 量 ， 并 且 看 看 里 面 是 否 有 0 值 。 方 法 


如 下 : 


tfdbg> pt softmax/Softmax:@ 
tfdbg> /0\.000 





果然 是 有 0 值 ， 如 图 16-4 所 示 。 





图 16-4 
用 ni 命令 的 -t 标 志 进 行 退 湖 ， 方 法 如 下 : 


ni -t cross_entropy/Log 





追溯 结果 如 图 16-5 所 示 ， 可 以 看 到 debug_mnist.py 文 件 的 第 102 行 是 
JEWIN E o 


raceback of node construction: 
): debug_mnist.py 
Line: 167 
Function: «module» 
Text: "tf.app.run(main-main, argv-[sys.argv[0]] + unparsed)" 


/usr/Local/1lib/python2.7/site-packages/tensorflow/python/pLatform/app.py 
Line: 44. 
Function: run 
Text: " Sys.exit(main(. sys.argv[:1] + flags. passthrough)) 
: debug mnist.py 
Line: 102 
Function: main 
Text: "diff = y_ * tf.log(y)" 


: /usr/local/lib/python2.7/site-packages/tensorflow/python/ops/gen. math. ops . py 
Line: 1345 

Function: log 

Text: "result = .op def lib.apply op("Log", x=x, name-name)" 





Tæ, KAM th log hy ta A EET ALB, PEUT T8 BUE DS: 


diff = y * tf.log(tf.clip by value(y, 1e-8, 1.0)) 








再 次 运行 后 ， 准 确 率 不 再 低 值 徘徊 ， 恢 复 正 闻 。 


TensorFlow Debugger 是 一 个 非常 好 用 的 调试 工具 ， 还 有 很 多 交互 式 
命令 ， 感 兴趣 的 读者 可 以 进一步 参考 tfdbg 的 命令 行 接口 教程 加 。 


16.2 ”远程 调试 方法 


上 面 的 使 用 示例 是 在 本 地 的 调试 方法 。 但 通常 情况 下 ， 数 据 是 在 远 
程 机 器 上 训练 ， 更 一 般 的 情况 是 ， 深 度 学 习 越 来 越 倾向 于 在 云端 训练 
本 地 不 能 访问 训练 过 程 中 的 数据 。 那 么 ， 这 种 情况 下 如 何 进行 模型 的 调 
UE 








这 时 采用 tfdbg 的 offline_analyzer。 设 置 一 个 本 地 和 远程 机 器 都 能 访 
问 的 共享 目录 ， 如 /home/somebody/tfdbg_dumps_1。 然 后 ， 通 过 
debug_nutils.watch_graph 函 数 设 置 运行 时 的 参数 选项 。 在 运行 
session.run(O 时 就 会 将 中 间 张 量 和 运行 时 的 图 像 转 储 到 共享 目录 中 。 方 法 
b: 











from tensorflow.python.debug import debug utils 


# 此 处 代码 如 : 构建 图 ， 生 成 session 对 象 等 。 已 省 略 
run_options = tf.RunOptions() 
debug utils.watch graph( 
run options, 
session.graph, 
debug urls-["file:///home/somebody/tfdbg dumps 1"]) # 共享 目录 的 位 置 
# 这 里 如 果 用 多 个 客户 端 执 行 run， 应 该 使 用 多 个 不 同 的 共享 目录 





























session.run(fetches, feed dict-feeds, options-run options) 





XXE. FEAT ZR Sm Et ay UA fS HitfdbglJoffline analyzer2K JI £X, 
和 检查 共享 目录 中 的 数据 。 方 法 如 下 : 








python -m tensorflow.python.debug.cli.offline analyzer \ 
--dump_dir=/home/somebody/tfdbg dumps 1 





另 一 种 更 简单 和 灵活 的 方法 是 使 用 会 话 的 包装 器 函数 
DumpingDebugWrapperSession 来 在 共享 目录 中 产生 训练 中 的 累积 文件 。 
直接 这 样 使 用 : 





from tensorflow.python.debug import debug utils 


sess = tf debug.DumpingDebugWrapperSession( 
sess, "/home/somebody/tfdbg dumps 1/", watch_fn=my_watch_fn) 





16.3 ”小结 


本 章 主要 介绍 了 TensorFlow Debugger， 这 是 一 个 非常 有 用 的 调试 工 
其。 在 训练 神经 网 络 的 过 程 中 ， 开 发 者 常常 会 因为 各 种 原因 ， 写 错 某 个 
参数 或 者 变量 的 值 ， 虽 然 这 时 候 训练 过 程 不 会 报错 ， 但 是 会 寻 致 损失 值 
很 长 时 间 都 不 下 降 ， 模 型 收敛 很 慢 。 本 章 还 介绍 了 远程 调试 的 方法 。 以 
往 面 对 这 种 情况 ， 开 发 人 员 需 要 费 很 大 力气 去 查找 原因 。 使 用 
TensorFlow Debugger 可 以 在 早期 的 一 两 次 从 代 中 ， 观 察 张 量 的 正确 与 
否 ， 给 调试 带 来 极 大 帮助 。Debugger 是 TensorFlow 1.0 新 加 入 的 特性 ， 
不 在 不 断 完善 ， 并 且 有 望 和 TensorBoard 结 合 ， 更 大 限度 地 简化 调 
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[1] 本章 内 容 主 要 参 


% https://www.tensorflow.org/programmers_guide/debugger 。 


[2] https://www.tensorflow.org/programmers_guide/debugger 


第 17 章 “TensorFlow 和 Kubernetes 结 合 





在 AljphaGo 中 ， 每 个 实验 使 用 1 000 个 节点 ， 每 个 节点 有 4 个 GPU， 
也 就 是 使 用 了 4 000 个 GPU。 在 Siri 中 ， 每 个 实验 2 个 节点 ， 也 就 是 使 用 了 
8 个 GPU。 可 想 而 知 ，AI 研 究 的 进行 依赖 于 海量 数据 的 计算 ， 同 时 也 离 
不 开 高 性 能 计算 资源 的 文 持 。 


在 第 14 章 中 我 们 已 经 讲解 了 TensorFlow 的 分 布 式 原理 以 及 部 署 方 
式 。 随 着 海量 数据 的 出 现 和 模型 参数 的 增多 ， 我 们 必然 需要 更 大 的 集群 
来 运行 模型 ， 这 样 最 大 的 好 处 在 于 把 原本 可 能 需要 周 级 别 的 训练 时 间 颖 
短 到 天 级 别 甚 至 小 时 级 别 。 未 来 的 模型 训练 面 对 的 都 是 上 亿 数 据 和 上 亿 
参数 ， 稳 定 的 计算 能 力 和 管理 便捷 的 集群 环境 至 关 重 要 。Kubernetes 是 
目前 应 用 最 广泛 的 容器 集群 管理 工具 之 一 ， 它 可 以 为 对 分 布 式 
TensorFlow 的 监控 、 调 度 等 生命 周期 管理 提供 所 需 的 保障 。 








17.1 为 什么 需要 Kubernetes 


有 过 大 数据 集群 开发 经 验 的 人 都 知道 ， 尽 管 TensorFlow 有 上 自己 的 分 
布 式 方案 ， 但 仍 需 要 手动 把 每 台 机 器 运行 起 来 ， 当 机 器 量 是 几 台 或 十 几 
台 的 时 候 ， 可 能 压力 不 大 ， 但 当 机 器 量 达 到 上 千 台 时 ， 就 需要 一 样 东 西 
REET SE, BEAT ASIC. VRE, PAAR A, RS 
一 些 任务 意外 退出 后 ， 还 需要 控制 自动 章 启 。Kubemetes 就 提供 了 这 样 
的 解决 方案 。 

















Kubernetes 官 方 1 的 解释 是 Kubernetes 是 一 个 用 于 容器 集群 的 自 
动 化 部 署 、 扩 容 以 及 运 维 的 开源 平台 ， 它 可 以 提供 任务 调度 、 监 控 、 失 
败 重启 等 功能 。 


另外 ， 因 为 TensorFlow 和 Kubernetes 都 是 谷歌 公司 的 开源 产品 ， 所 
以 非常 容易 在 它们 之 间 搭 起 桥梁 ， 并 且 谷 歌 云 平台 P 也 在 推出 平台 化 
的 解决 方案 。 





17.2 “分布 式 TensorElow 在 Kubernetes 中 的 运行 


下 面 我 们 就 来 介绍 在 Kubernetes 中 运行 分 布 式 TensorFlow 的 方法 。 
本 节 首 先 学 习 如 何 部 署 Kubernetes 环 境 ， 接 着 在 搭建 好 的 环境 中 运行 分 
布 式 TensorFlow， 并 用 MNIST 来 训练 。 
17.2.4 部署 及 运行 


我 们 需要 先 安 装 Kubernetes。 这 里 是 用 Mac 来 演示 的 ， 其 他 操作 系 
统 也 大 同 小 异 。 


我 们 用 Minikube 来 创建 本 地 Kubernetes 集 群 。 安 装 Minikube 需 要 预 
先 安装 VirtualBox 虚 拟 机 ， 读 者 可 以 从 官网 中 上 直接 下 载 安装 ， 注 意 选 
择 对 应 的 操作 系统 版 本 即 可 。 图 17-1 是 我 选用 的 版 本 。 





Welcome to VirtualBox.org! 


About VirtualBox is a powerful x86 and AMD64/Intel64 virtualization product for enterprise as well as home use. Not only is News Flash 
VirtualBox an extremely feature rich, high performance product for enterprise customers, it is also the only professional 
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图 17-1 


Minikube 用 Go 语言 编号， 发布 形 式 是 一 个 独立 的 二 进 制 文件 ， 所 以 
只 需要 下 载 下 来 ， 然 后 放 在 对 应 的 位 置 即 可 。 因 此 安装 Minikube， 只 需 





curl -Lo minikube https://storage.googleapis.com/minikube/releases/v0.14.0 


minikube-darwin-amd64 && chmod +x minikube && sudo mv minikube /usr/local/ 
bin/ 





Kubernetes 提 供 了 一 个 客户 端 kubectl， 可 直接 通过 kubect 以 命令 行 
的 方式 与 集群 交互。 


安装 kubect 的 方法 如 下 : 


curl -Lo kubectl http://storage.googleapis.com/kubernetes-release/release/ 
v1.5.1/ 

bin/darwin/amd64/kubectl && chmod +x kubectl && sudo mv kubectl /usr/local 
/bin/ 





下 面 在 Minikube 中 启动 Kubernetes 集 群 ， 如 图 17-2 所 示 。 


~ minikube start 


Starting local Kubernetes cluster. 
Kubectl is now configured to use the cluster. 





图 17-2 


可 以 观察 到 VirtualBox 中 也 局 动 了 相应 的 虚拟 机 ， 如 图 17-3 所 示 。 








eoe Oracle VM VirtualBox 管理 器 
zi i M 

A ues 

新 建 (N) 。 设置 (S) 显示 (H) 

51-A) minikube ED 常规 

Ain 名 称 : minikube 


操作 系统 : Linux 2.6 / 3.x / 4.x (64- 
bit) 


内 存 大 小 : 2048 MB 





2 

启动 顺序 : 光驱 , 光驱 , 硬盘 

硬件 加 速 : VT-X/AMD-V, HEAR, 
PAE/NX, KVM 半 虚 拟 化 


(E) 显示 

显存 大 小 : 8 MB 
远程 桌面 服务 器 : 已 禁用 
录像 : 已 禁用 
p) 存储 

控制 器 : SATA 


SATA 端口 0: [光驱 ] boot2docker.iso (68.95 MB) 
SATA 端口 1: disk.vmdk (普通 , 19.53 GB) 


p 声音 

主机 音频 驱动 : CoreAudio 

控制 芯片 : ICH AC97 
| 天 网 络 


图 17-3 


我 们 采用 Docker Hub 向 上 的 最 新 镜像 tensorflow/tensorflow (基于 
TensorFlow 的 1.0 版 本 ) 。 


首先 ， 配 置 参数 服务 器 的 部 署 (deployment)〉 文件 ， 命 名 为 tf-ps- 
deployment.json。 代 码 如 下 : 





{ 


"apiVersion": "extensions/vibetai", 
"kind": "Deployment", 


"metadata": { 


name": "tensorflow-ps2" 


"spec": { 
"replicas": 2, 
"template": ( 

"metadata": ( 
"labels": ( 


name": "tensorflow-ps2", 


role": "ps 


"spec": ( 
"containers": [ 
{ 
"name": "ps", 
"image": "tensorflow/tensorflow", 
"ports": [ 
{ 


"containerPort": 2222 





配置 参数 服务 器 的 服务 (Service) 文件 ， 命 名 为 tf-ps-service.json， 
代码 如 下 : 





{ 
"apiVersion": "v1", 
"kind": "Service", 
"spec": ( 
"ports": [ 


( 


"port": 2222, 
"targetPort": 2222 


} 
l 
"selector": { 
"name": "tensorflow-ps2" 
} 
}s 
"metadata": ( 
"labels": { 
"name": "tensorflow", 
"role": "service" 
}s 
"name": "tensorflow-ps2-service" 
} 


} 





配置 计算 服务 器 的 部 署 文 件 ， 命 名 为 tf-worker-deployment.json， 代 
码 如 下 : 





"apiVersion": "extensions/vibetal1", 
"kind": "Deployment", 
"metadata": { 


name": "tensorflow-worker2" 


"spec": { 
"replicas": 2, 
"template": ( 

"metadata": ( 
"labels": ( 


name": "tensorflow-worker2", 
"worker" 


"spec": 1 
"containers": [ 


{ 


"name": "worker", 


"image": "tensorflow/tensorflow", 
"ports": [ 
{ 
"containerPort": 2222 

} 

] 

} 

] 
} 
} 





配置 计算 服务 器 的 服务 文件 ， 命 名 为 tf-worker-service.json， 代 码 如 
js 





{ 
"apiVersion": "v1", 
"kind": "Service", 
"spec": ( 
"ports": [ 
{ 
"port": 2222, 
"targetPort": 2222 
} 
l 
"selector": { 
"name": "tensorflow-worker2" 
} 
}s 
"metadata": { 
"labels": ( 
"name": "tensorflow-worker2", 
"role": "service" 
» 
"name": "tensorflow-wk2-service" 


执行 以 下 命令 : 


kubectl create -f tf-ps-deployment.json 
kubectl create -f tf-ps-service. json 
kubectl create -f tf-worker-deployment. json 
kubectl create -f tf-worker-service.json 





分 别 输出 以 下 结果 : 


deployment "tensorflow-ps2" created 
service " tensorflow-ps2-service" created 
deployment "tensorflow-worker2" created 
service "tensorflow-wk2-service" created 





稍 等 片刻 ， 运 行 kubectl get pod， 可 以 看 到 参数 服务 器 和 计算 服务 器 
全 部 创建 完成 ， 如 图 17-4 所 示 。 


= k8s kubectl get pod 

NAME READY STATUS RESTARTS AGE 
hel Lo-minikube-957602326-b0k5z 1/1 Running 13d 
tensorflow-ps2-3073558082-3b08h 1/1 Running ih 


tensorflow-ps2-3073558082-4x3j2 1/2 Running 1h 
tensorflow-worker2-3070479207-6hvsk 1/1 Running 
tensorflow-worker2-3070479207-k6z8f 1/1 Running 





图 17-4 


下 面 我们 进入 每 个 服务 器 (Pod) 中 ， 部 署 好 需要 运行 的 
mnist_replica.py 文 件 。 


首先 查看 以 下 2 台 ps_host 的 IP 地址， 如 图 17-5 所 示 。 


= k8s kubectl describe service tensorflow-ps2-service 
Name: tensorflow-ps2-service 
Namespace: default 
Labels: name=tensorf Low 

role-service 
Selector: name=tensorflow-ps2 


ClusterIP 

10.0.0.50 

<unset> 2222/TCP 
Endpoints: 1/2.17.0.16:2222,102.17.0.17:2222 
Session Affinity: None 
No events. 





图 17-5 


然后 查看 2 台 worker host 的 了 了 地 址 ， 如 图 17-6 所 示 。 


k8s kubectl describe service tensorflow-wk2-service 
Name: tensorflow-wk2-service 
Namespace: default 
Labels: name-tensorflow-worker2 
role-service 
Selector: name=tensorf Low-worker2 


ClusterIP 

10.0.0.150 

<unset> 2222/TCP 
Endpoints: 172.17 0; 3:2222 1/72:17.0:8:2222 
Session Affinity: None 
No events. 





图 17-6 
打开 4 个 终端 ， 分 别 进 入 4 个 Pod 当 中 ， 命 令 如 下 : 


kubectl exec -ti tensorflow-ps2-3073558082-3b08h /bin/bash 
kubectl exec -ti tensorflow-ps2-3073558082-4x3j2 /bin/bash 
kubectl exec -ti tensorflow-worker2-3070479207-k6z8f /bin/bash 
kubectl exec -ti tensorflow-worker2-3070479207-6hvsk /bin/bash 





通过 下 面 的 方式 将 mnist_replica.py 分 别 部 署 到 4 个 Pod 中 ， 如 下 : 


curl https://raw. githubusercontent.com/tensorflow/tensorflow/master/ 
tensorflow/tools/dist_test/python/mnist_replica.py -o mnist_replica.py 





在 参数 服务 器 的 两 个 容器 中 分 别 执行 : 


python mnist replica.py --ps hosts-172.17.0.16:2222,172.17.0.17:2222 
ker 
hosts-172.17.0.3:2222,172.17.0.8:2222 --job name-"ps" --task index-0 


python mnist replica.py --ps hosts-172.17.0.16:2222,172.17.0.17:2222 
ker 
hosts-172.17.0.3:2222,172.17.0.8:2222 --job name-"ps" --task index-1 





在 计算 服务 器 的 两 个 容器 中 分 别 执行 : 


python mnist replica.py --ps hosts-172.17.0.16:2222,172.17.0.17:2222 --wor 
ker 
hosts-172.17.0.3:2222,172.17.0.8:2222 --job name-"worker" --task index-0 


python mnist replica.py --ps hosts-172.17.0.16:2222,172.17.0.17:2222 --wor 
ker 
hosts-172.17.0.3:2222,172.17.0.8:2222 --job name-"worker" --task index-1 





执行 输出 与 14.6 节 的 输出 类 似 。 一 共 执 行 200 次 迭代 ， 工 作 节 点 
1 (172.17.0.3:2222) 4T Y 144R, W F: 





job name = worker 

task index = @ 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 
GrpcChannelCache for job ps -» (0 -> localhost:2222} 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 


GrpcChannel 

Cache for job worker -> {@ -> localhost:2223, 1 -> localhost:2224} 

I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:217] Started 
server 

with target: grpc://localhost: 2223 

Worker @: Initializing session... 

I tensorflow/core/distributed runtime/master session.cc:994] Start master 
session 

0d791a302977e5701 with config: 

device filters: "/job:ps" 

device filters: "/job:worker/task:0" 

allow soft placement: true 


Worker 0: Session initialization complete. 
Training begins @ 1483516057.489495 
1483516057.518419: Worker 0: training step 1 done (global step: 0) 


1483516057.541053: Worker 0: training step 2 done (global step: 1) 
1483516057.569677: Worker 0: training step 3 done (global step: 2) 
1483516057.584578: Worker 0: training step 4 done (global step: 3) 
1483516057.646970: Worker 0: training step 5 done (global step: 4) 

# PAAR AS 

1483516059.286596: Worker @: training step 141 done (global step: 197) 
1483516059.291600: Worker 0: training step 142 done (global step: 198) 
1483516059.297347: Worker @: training step 143 done (global step: 199) 
1483516059.303738: Worker 0: training step 144 done (global step: 200) 


Training ends @ 1483516059.303808 
Training elapsed time: 1.614513 s 
After 200 training step(s), validation cross entropy - 1235.56 





工作 节点 2 (172.17.0.8:2222) 执行 了 56 次 迭代 ， 输 出 如 下 : 





job name = worker 

task index = 1 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 
GrpcChannel 

Cache for job ps -» (0 -> localhost:2222} 

I tensorflow/core/distributed runtime/rpc/grpc channel.cc:200] Initialize 
GrpcChannel 

Cache for job worker -» (0 -> localhost:2223, 1 -> localhost:2224) 


I tensorflow/core/distributed_runtime/rpc/grpc_server_lib.cc:217] Started 
server 

with target: grpc://localhost:2224 

Worker 1: Waiting for session to be initialized... 

I tensorflow/core/distributed runtime/master session.cc:994] Start master 
session 

92e671f3dd1ffd05 with config: 

device filters: "/job:ps" 

device filters: "/job:worker/task:1" 

allow soft placement: true 


Worker 1: Session initialization complete. 

Training begins @ 1483516058.803010 

1483516058.832164: Worker 1: training step 1 done (global step: 121) 
1483516058.844464: Worker 1: training step 2 done (global step: 123) 
1483516058.860988: Worker 1: training step 3 done (global step: 126) 
1483516058.873543: Worker 1: training step 4 done (global step: 128) 
1483516058.884758: Worker 1: training step 5 done (global step: 130) 
# .…. 中 间 略 去 
1483516059.152332: Worker 
1483516059.167606: Worker 
1483516059.177215: Worker 


: training step 52 done (global step: 176) 
: training step 53 done (global step: 178) 
: training step 54 done (global step: 180) 
1483516059.301384: Worker 1: training step 55 done (global step: 182) 
1483516059.309557: Worker 1: training step 56 done (global step: 202) 
Training ends @ 1483516059. 309638 

Training elapsed time: 0.536126 s 

After 200 training step(s), validation cross entropy - 1235.56 


|!uDbsanpnm 








在 这 个 例子 中 ， 更 好 的 方式 是 把 需要 执行 的 源 代 码 以 及 训练 数据 和 
测试 数据 放 在 持久 卷 (persistent volume) 中 ， 在 多 个 Pod 间 实现 共享 ， 
从 而 避免 在 每 一 个 Pod 中 分 别 部 署 。 


对 应 TensorFlow 的 GPU 的 Docker 集 群 部 署 ，Nvidia 官 方 提供 了 
nvidia-docker 的 方式 ， 原 理 主要 是 利用 和 窒 主 机 上 的 GPU 设 备 ， 将 它 上 映射 
到 容器 中 。 更 多 与 部 署 相 关 的 内 容 读 者 可 参 





4% https://github.com/NVIDIA/nvidia-docker . 
17.2.2 ”其 他 应 用 

训练 好 模型 之 后 可 以 将 它 打包 制作 成 环境 独立 的 镜像 ， 这 样 能 够 极 
大 地 方便 测试 人 员 部 署 一 致 的 环境 ， 也 便于 对 不 同 版 本 的 模型 做 标记 、 


比较 不 同 模型 的 准确 率 ， 从 整体 上 降低 测试 、 部 署 上 线 等 的 工作 复杂 
性 ， 有 具有 很 大 的 优势 。 





je a 


将 Kubernete 与 TensorFlow 结 合 ， 借 助 Kubernetes 提 供 的 稳定 计算 环 
境 ， 对 TensorFlow 集 群 进行 便捷 的 管理 ， 降 低 了 搭建 大 规模 深度 学 习 平 
台 的 难度 ， 这 也 是 社区 非常 推 革 的 部 署 方案 。 本 章 主 要 讲述 了 用 
Kubernetes 管 理 TensorFlow 集 群 的 方法 ， 以 及 在 Kubernetes 上 部 署 分 布 式 
TensorFlow 的 方式 ， 最 后 采用 MNIST 的 分 布 式 例子 进行 了 实践 。 








[1] https://kubernetes.io/ 
[2] https://cloud.google.com/ 
[3] https:/www.virtualbox.org/ 


[4] https://hub.docker.com/r/tensorflow/tensorflow/ 


78183:  TensorFlowOnSpark 


在 第 14 章 我 们 讲 了 TensorFlow 的 分 布 式 运行 ， 在 第 17 重 又 介绍 了 使 
用 Kubernetes 集 群 对 TensorFlow 节 点 进行 调度 、 监 控 和 失败 重启 等 功 
能 。 我 们 知道 ，Hadoop 生 态 的 大 数据 系统 一 般 可 以 分 为 Yarn、HDFS 和 
MapReduce 计 算 框 架 ，TensorFlow 本 身 的 分 布 式 就 相当 于 MapReduce 计 
算 框架 部 分 ， 而 Kubernetes 就 相当 于 Yar 调 度 系统 。 本 草 要 讲 的 
TensorFlowOnSpark 是 利用 远程 直接 内 存 访问 (Remote Direct Memory 
Access，RDMA) 解决 了 存储 功能 和 调度 ， 实 现 了 深度 学 习 和 大 数据 的 


融合 。 











TensorFlowOnSpark (TFoS) 是 雅虎 推出 的 开源 项 目 叫 ， 支 持 使 用 
Apache Spark 集 群 进行 分 布 式 TensorFlow 训 练 和 预测 。 其 实 ， 
TensorFlow 的 程序 并 不 能 直接 作为 Spark 的 程序 运行 ， 
TensorFlowOnSpark 提 供 了 一 个 程序 来 进行 桥接 ， 本 质 上 是 每 个 Spark 
Executor 启 动 一 个 对 应 的 TensorFlow 进 程 ， 然 后 通过 远程 进程 通信 

CRPC) 进行 交互 。 


18.1 TensorFlowOnSpark 的 架构 PI 


要 把 一 个 训练 程序 改 到 使 用 Spark 的 集群 上 运行 ， 在 运用 
TensorFlowOnSpark 后 ， 束 只 需要 改 非常 少量 的 代码 (官方 认为 不 到 10 
ÍT) 。TensorFlowOnSpark 通 过 下 面 的 步骤 来 管理 Spark 集 群 。 


(1) MA: 为 在 Executor 上 执行 的 每 个 TensorFlow 进 程 保留 一 个 端 
口 ， 并 局 动 数 据 消息 的 监听 器 。 


(2) 启动 : 在 Executor 上 局 动 Tensorflow 主 函数 。 


(3) 数据 获取 : 这 里 提供 了 两 种 不 同 的 模式 来 提取 训练 数据 和 测 
试 数据 。 


e Readers 和 QueueRunners: 利用 TensorFlow 的 Readers 和 QueueRunners 
机 制 直接 从 HDFS 文 件 中 读 取 数据 文件 。Spark 不 涉及 访问 数据 。 

e Feeding: 将 Spark RDD 数 据 发 送 到 TensorFlow 节 点 ， 随 后 的 数据 将 
通过 feed_dict 机 制 传 入 TensorFlow 图 中 。 


(4) 关闭 : 关闭 Executor 上 的 TensorFlow 计 算 节 点 和 参数 服务 节 


TensorFlowOnSpark 系 统 的 架构 如 图 18-1 所 示 。 


图 18-1 [3] 





TFoS 曾 做 过 一 个 图 像 分 类 的 实验 ， 结 果 非 常 令 人 鼓舞 。 以 同一 准 
确 度 作为 评判 标准 ， 准 确 度 达 到 0.730， 单 计算 节点 工作 需要 46 小 时 ， 
双 计 算 节 点 需要 22.5 小 时 ，4 计 算 节 点 需要 13 小 时 ，8 计 算 节 点 需要 7.5 小 
时 ， 如 图 18-2 所 示 。 因 此 ， 实 现 了 接近 模型 训练 的 近 线 性 可 扩展 性 。 





图 18-2 [41 





下 面 我 们 束 以 MNIST 数 据 集 为 例 ， 看 看 如 何在 Spark 上 进行 部 署 、 
训练 以 及 预测 。 


18.2 TensorFlowOnSpark?EMNIST FH ff Sz jx BI 


采用 Standalone 模 式 的 Spark 集 群 ， 仅 需要 一 台 计 算 机 就 够 ， 下 面 以 
此 为 例 看 看 如 何 应 用 TensorFlowOnSpark。 


首先 ， 安 装 Spark 和 Hadoop， 这 里 所 用 的 计算 机 的 操作 系统 是 OS X 
10.10.5， 并 且 已 经 部 车 好 了 Java 1.8.0 的 JDK， 从 
http://spark.apache.org/downloads.html 下 载 Spark， 这 里 选用 2.1.0 版 本 ， 
Mhttp://hadoop.apache.org/#Download+Hadoop 下 载 Hadoop， 这 里 选用 
2.7.3 版 本 。 在 2017 年 3 月 ， 这 个 框架 对 TensorFlow 0.12.1 版 本 的 支持 较 
好 ， 但 对 TensorFlow 1.0 版 本 尚 有 些 问 题 ， 还 需要 读者 自己 适 配 好 。 


安装 后 ， 修 改 必 要 的 配置 文件 ， 设 置 环境 变量 后 ， 局 动 Hadoop: 


$HADOOP_HOME/sbin/start-all.sh 





然后 ， 检 出 TensorFlowOnSpark 源 代码 ， 如 下 : 





git clone --recurse-submodules https://github.com/yahoo/TensorFlowOnSpark. 
git 

cd TensorFlowOnSpark 

git submodule init 

git submodule update --force 

git submodule foreach --recursive git clean -dfx 


接 看 ， 将 源 代码 部 分 打包 ， 供 提交 任务 时 使 用 ， 如 下 : 


cd TensorFlowOnSpark/src 
zip -r ../tfspark.zip * 











设置 TensorFlowOnSpark 根 目录 的 环境 变量 ， 接 下 来 会 用 到 : 


cd TensorF lowOnSpark 
export TFoS HOME-$(pwd) 





接着 ， 局 动 Spark dX Wi (master) : 


${SPARK_HOME}/sbin/start-master.sh 








配置 两 个 工作 节点 (worker) 实例 ， 通 过 master-spark-URL 和 主 市 


export MASTER=spark://$(hostname) : 7077 

export SPARK WORKER INSTANCES-2 

export CORES PER WORKER=1 

export TOTAL CORES-$(($(CORES PER WORKER)*$(SPARK WORKER INSTANCES))) 
${SPARK_HOME}/sbin/start-slave.sh -c $CORES PER WORKER -m 3G ${MASTER} 





接 下 来 ， 提 交 任 务 ， 将 MNIST 的 zip 文 件 转换 为 HDFS 上 的 RDD 数 据 
集 : 


${SPARK_HOME}/bin/spark-submit \ 

--master ${MASTER} --conf spark.ui.port=4048 --verbose \ 
$(TFoS HOMEj/examples/mnist/mnist data setup.py \ 
--output examples/mnist/csv \ 

--format csv 





运行 完毕 后 ， 可 以 通过 如 下 命令 看 到 处 理 过 的 数据 集 : 





hadoop fs -ls hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv 
Found 2 items 


drwxr-xr-x  - jiaxuan supergroup 0 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/test 
drwxr-xr-x  - jiaxuan supergroup © 2017-03-10 04:27 


hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train 


可 以 但 看 保存 后 的 图 片 和 标记 辣 量 ,分别 共有 10 份 : 





hadoop fs -ls hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/ 
labels 


-rw-r--r-- 1 jiaxuan supergroup 0 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/ SUCCES 
S 

-rw-r--r-- 1 jiaxuan supergroup 204800 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00 
000 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00 
001 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00 
002 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00 
003 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00 
004 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00 
005 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00 
006 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00 
007 

-rw-r--r-- 1 jiaxuan supergroup 245760 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00 
008 

-rw-r--r-- 1 jiaxuan supergroup 229120 2017-03-10 04:27 
hdfs://localhost:9000/user/jiaxuan/examples/mnist/csv/train/labels/part-00 
909 


MNIST 训 练 集 共 有 60 000 条 数据 ， 有 10 个 文件 ， 每 个 文件 有 6 000% 
数据 左右 ， 里 面 存储 的 格式 和 标记 向 量 格式 如 图 18-3 所 示 。 


图 18-3 


0 


图 片 回 量 格式 如 图 18-4 所 示 。 


0, 
0 


0,0,0,0,0,0,0,0 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 
,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,31,92,150,191,254,255,254,254,148,0,0,0,0,0,0,0,0,0,0, 
0,0,0,0,0,0,0,0,89,234,253,253,253,253,253,253,253,249,103,0,0,0,0,0,0,0,0, ,170,252,253,253,231,217 ,132,138,168,228,253,251,92,0,0,0,0,0,0,0,0,0,0,0,0,0,0,27,253,25 
3,199,84,26,0,0,0,0,53,245,253,216,0,0,0,0,0,0,0,0,0,0,0,0,0,0,122,253,91, 
6, 
,253,211,110,171,253,253,253,250,193,71,38,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 
,253,227,89,2,61,248,201,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,34,238,253,162,36,0,0,0,213,239,37,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,56,253,169,7,0,0,0,0,213,207,6,0,0,0,0,0,0,0,0,0,0 
,0,0,0,0,0,0,0,124,253,208,73,0,0,60,135,240,201,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,26,228,253,242,218,218,249,253,253,197,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,73,224,253,253,253 
,253,253,184,36,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,26,123,203,253,162,125,27,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 





图 18-4 


这 里 ， 我 们 主要 是 把 训练 集 和 测试 集 分 别 保存 成 RDD 数 据 ， 有 具体 代 


132: NL${TFoS_HOME}/ examples/mnist/mnist_data_setup.py. XERAIS 
如 下 : 


writeMNIST(sc, "mnist/train-images-idx3-ubyte.gz", "mnist/train-labels-idx 
1- 

ubyte.gz", args.output + "/train", args.format, args.num partitions) 
writeMNIST(sc, "mnist/t10k-images-idx3-ubyte.gz", "mnist/t10k-labels-idx1- 


ubyte.gz", args.output + "/test", args.format, args.num_partitions) 





调用 writeMNIST 函 数 ， 将 RDDs 保 存 为 特定 格式 : 





def writeMNIST(sc, input images, input labels, output, format, num partiti 
ons): 
""" 将 MNIST 图 像 和 标记 向 量 写 入 HDFS 上 """ 
with open(input images, 'rb') as f: 
images - numpy.array(mnist.extract images(f)) 





with open(input labels, 'rb') as f: 
labels = numpy.array(mnist.extract labels(f, one hot-True)) 


shape - images.shape 
print("images.shape: (0j".format(shape)) it 60000 x 28 x 28 
print("labels.shape: {@}".format(labels.shape)) # 60000 x 10 


imageRDD = sc.parallelize(images.reshape(shape[0], shape[1] * shape[2]), 
num partitions) 
labelRDD = sc.parallelize(labels, num partitions) 


output images = output + "/images" 
output labels = output + "/labels" 





# 将 RDDs 保 存 为 特定 格式 

if format == "pickle": 
imageRDD.saveAsPickleFile(output images) 
labelRDD.saveAsPickleFile(output labels) 


elif format == "csv": 
imageRDD.map(toCSV).saveAsTextFile(output images) 
labelRDD.map(toCSV).saveAsTextFile(output labels) 





接着 ， 提 交 训 练 任务 ， 开 始 训练 ， 命 令 如 下 ， 我 们 最 终 在 HDFS 上 
生成 了 mnist_model: 


${SPARK_HOME}/bin/spark-submit \ 

--master ${MASTER} \ 

--py-files 
${TFOS_HOME}/tfspark.zip,${TFoS_HOME}/examples/mnist/spark/mnist_dist.py \ 
--conf spark.cores.max=${TOTAL_CORES} \ 

--conf spark.task.cpus=${CORES PER WORKER) \ 

--conf spark.executorEnv.JAVA HOME-"$JAVA HOME" \ 
${TFOS_HOME}/examples/mnist/spark/mnist_spark.py \ 

--cluster_size ${SPARK_WORKER_INSTANCES} \ 

--images examples/mnist/csv/train/images \ 


--labels examples/mnist/csv/train/labels \ 
--format csv \ 

--mode train \ 

--model mnist_model 





这 里 的 mnist_dist.py 主 要 是 构建 TensorFlow 分 布 式 任务 ， 其 中 定义 
了 分 布 式 任务 的 主 函 数 ， 也 就 是 启动 TensorFlow 的 主 函 数 map_fun， 采 
用 的 数据 获取 方式 是 Feeding。 这 里 用 到 的 TensorFlowOnSpark 人 代码 主 要 
是 获取 TensorFlow 集 群 和 服务 器 实例 ， 如 下 : 





cluster, server = TFNode.start_cluster_server(ctx, 1, args.rdma) 





其 中 TFNode 调 用 我 们 刚才 打包 好 的 tfspark.zip 中 的 TFNode.py 文 件 。 


mnist_spark.py 文 件 是 我 们 训练 的 主 程序 ， 体 现 了 
TensorFlowOnSpark 的 部 署 步 又 ， 如 下 : 


sc = SparkContext(conf=SparkConf().setAppName("mnist_spark") ) 
executors = sc. conf.get("spark.executor.instances") 
num_executors = int(executors) if executors is not None else 1 


cluster = TFCluster.reserve(sc, args.cluster_size, num_ps, args.tensorboar 
d, 
TFCluster. InputMode.SPARK) #1. 为 在 Executor 执 行 上 的 每 个 TensorFlow 进 程 保留 一 个 
端口 
cluster.start(mnist dist.map fun, args) # 2. 启 动 Tensorflow 主 函数 
if args.mode == "train": 
cluster.train(dataRDD, args.epochs) # 3. 训 练 
else: 
labelRDD = cluster.inference(dataRDD) # 预测 
labelRDD.saveAsTextFile(args.output) 
cluster.shutdown() # 4. 关 闭 Executor 上 的 TensorFlow 计 算 节点 和 参数 服务 节点 

















预测 的 过 程 也 类 似 ， 运 行 如 下 命令 : 





${SPARK_HOME}/bin/spark-submit \ 
--master ${MASTER} \ 


--py-files 
${TFOS_HOME}/tfspark.zip,${TFoS_HOME}/examples/mnist/spark/mnist_dist.py \ 
--conf spark.cores.max=${TOTAL_CORES} \ 

--conf spark.task.cpus=${CORES PER WORKER) \ 
--conf spark.executorEnv.JAVA HOME-"$JAVA HOME" \ 
$(TFoS HOMEj/examples/mnist/spark/mnist spark.py \ 
--cluster size $(SPARK WORKER INSTANCES) V 
--images examples/mnist/csv/test/images \ 

--labels examples/mnist/csv/test/labels \ 

--mode inference \ 

--format csv V 

--model mnist model \ 

--output predictions 





最 终 输 出 的 预测 文件 如 下 : 


2017 -@3-10T23:29:17.009563 Label: 7, Prediction: 7 
2017-03-10T23:29:17.009677 Label: 2, Prediction: 2 





其 实 ， 除 了 单机 版 的 Standalone 模 式 外 ， 官 方 网 站 上 还 介绍 了 在 
Amazon EC2 上 运行 以 及 在 Hadoop 集 群 上 采用 YARN 模 式 运行 ， 请 读者 
自行 参考 。 


只 需要 改 # 和 代码 就 可 以 将 TensorFlow 和 NUM 真正 
实现 大 数据 的 深度 学 习 训练 。 








[1] https://github.com/yahoo/TensorFlowOnSpark 
[2] AWA -Fhtps://github.com/yahoo/TensorFlowOnSpark 。 


[3] KE http:/yahoohadoop.tumblr.com/post/157196317141/open- 


sourcing-tensorflowonspark-distributed-deep . 


[4] ASA15] Bhttp://yahoohadoop.tumblr.com/post/157196317141/open- 


sourcing-tensorflowonspark-distributed-deep . 


[D] ”本 节 实 践 过 程 参 
考 https://github.com/yahoo/TensorFlowOnSpark/wiki/GetStarted_standalone 
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深度 学 习 在 声 频 、 图 像 、 视 频 处 理 上 已 经 取得 了 令 人 印象 深刻 的 进 
步 ， 但 它 人 通常 运行 在 功能 强大 的 计算 机 上 ， 如 果 需 要 运行 在 手机 等 移动 
Be a BU PY EIR KA DOP 8 EE? 





TensorFlow 目 前 是 最 有 竞争 力 成 为 未 来 主流 的 深度 学 习 框架 ， 谷 歌 
公司 不 仅 为 目 己 研 发 的 操作 系统 Android 提 供 了 TensorFlow 移 动 端 支 
持 ， 而 且 对 iOS 和 树 奏 派 也 提供 了 移动 端 文 持 。 








19.1 移动 六 应 用 原理 





FERS Sim A RA X ETRE FO, APTS: 一 是 将 模 
型 运行 在 云端 服务 器 上 ， 回 服务 器 用 送 请 求 ， 接 收服 务 器 啊 应 ;二 是 在 
本 地 运行 模型 。 一 般 来 说 ， 采 用 后 者 的 方式 ， 也 就 是 在 PC 上 训练 好 一 
个 模型 ， 然 后 将 其 放 在 移动 端 上 进行 预测 。 














使 用 本 地 运行 模型 原因 在 于 ， 首 先 ， 同 服务 端 请 求 数据 的 方式 可 行 
性 差 。 移 动 端的 资源 (如 网 络 、CPU、 内 存 资源 ) 是 很 稀缺 的 。 例 如 ， 
在 网 络 连 接 不 良 或 者 丢失 的 情况 下 ， 同 服务 端 发 送 连 续 的 数据 的 代价 就 
变 得 非常 高 昂 。 其 次 ， 运 行 在 本 地 的 实时 性 更 好 。 但 问题 是 ， 一 个 模型 
大 小 动 辑 几 百 兆 ， 且 不 说 把 它 安装 到 移动 端 需要 多 少 网 络 资源 ， 就 是 每 
次 预测 时 需要 的 内 存 资源 也 是 很 多 的 。 那 么 ， 要 在 性 能 相对 较 弱 的 移 
动 /多 入 式 设备 (如 没有 加 速 器 的 ARM CPU) 上 高 效 运行 一 个 CNN， 应 
该 怎么 做 昵 ? 这 就 衍生 出 了 很 多 加 速 计 算 的 方向 ， 其 中 重要 的 两 个 方向 
是 对 内 存 空间 和 速度 的 优化 。 采 用 的 方式 一 是 精简 模型 ， 既 可 以 节省 内 
存 空间 ， 也 可 以 加 快 计 算 速度 ， 二 是 加 快 框架 的 执行 速度 ， 影 响 框架 执 
行 速度 主要 有 两 方面 的 因素 ， 即 模型 的 复杂 度 和 每 一 步 的 计算 速度 。 











精简 模型 主要 是 使 用 更 低 的 权重 精度 ， 如 量化 〈quantization ) 或 权 
Æ Bfk (weight pruning) 。 剪 校 是 指 剪 小 权重 的 连接 ， 把 所 有 权 值 连接 
低 于 一 个 赋 值 的 连接 从 网 络 里 移 除 。 





而 加 速 框 染 的 执行 速度 一 般 不 会 影响 模型 的 参数 ， 是 试图 优化 矩阵 
之 间 的 通用 乘法 (GEMM) 运算 ， 因 此 会 同时 影响 卷 积 层 〈 卷 积 层 的 计 








算是 先 对 数据 进行 im2col 中 运算 ,再 进行 GEMM 运 算 ) 和 全 连接 层 。 
下 面 我 们 就 分 别 来 介绍 。 


19.1.1 量化 [2 





量化 〈quantitative ) ， 这 里 不 是 指 金融 上 的 量化 交易 ， 而 是 指 离 散 
化 。 量 化 是 一 个 总 括 术 语 ， 是 用 比 32 位 浮 点 数 更 少 的 空间 来 存储 和 运行 
模型 ， 并 且 TensorFlow 量 化 的 实现 屏蔽 了 存储 和 运行 细节 。 





神经 网 络 训练 时 要 求 速度 和 准确 率 ， 训 练 通 常 在 GPU 上 进行 ， 所 以 
使 用 浮 点 数 影 响 不 大 。 但 是 在 预测 阶段 ， 使 用 浮 点 数 会 影响 速度 。 量 化 
可 以 在 加 快速 度 的 同时 ， 保 持 较 高 的 精度 。 





量化 网 络 的 动机 主要 有 两 个 。 最 初 的 动机 是 减 小 模型 文件 的 大 小 。 
模型 文件 往往 占据 很 大 的 磁盘 空间 ， 例 如 ，6.6 节 中 介绍 的 模型 ， 每 个 
模型 都 接近 200 MB， 模 型 中 存储 的 是 分 布 在 大 量 层 中 的 权 值 。 在 存储 
模型 的 时 候 用 8 位 整数 ， 模 型 大 小 可 以 缩小 为 原来 32 位 的 25% 左 右 。 在 
加 载 模 型 后 运算 时 转换 回 32 位 浮 点 数 ， 这 样 已 有 的 浮 点 计算 代码 无 需 改 
动 即 可 正常 运行 。 











量化 的 男 一 个 动机 是 降低 预测 过 程 需 要 的 计算 资源 。 这 在 租 入 式 和 
移动 端 非常 有 意义 ， 能 够 更 快 地 运行 模型 ， 功 耗 更 低 。 从 体系 架构 的 角 
度 来 说 ，8 位 的 访问 次 数 要 比 32 位 多 ， 在 读 取 8 位 整数 时 只 需要 32 位 浮 点 
数 的 1/4 的 内 存 带宽 ， 例 如 ， 在 32 位 内 存 带宽 的 情况 下 ，8 位 整数 可 以 一 
次 访问 4 个 ，32 位 浮 点 数 只 能 1 次 访问 1 个 。 而 且 使 用 SIMD 指 令 (19.277 
会 加 速 介绍 该 指令 集 ) ， 可 以 在 一 个 时 钟 周 期 里 实现 更 多 的 计算 。 另 一 


方面 ，8 位 对 嵌入 式 设备 的 利用 更 充分 ， 因 为 很 多 媒 入 式 芯片 都 是 8 位 、 
16 位 的 ， 如 单片机 、 数 字 信号 处 理 器 〈DSP 芯 片 ) ，8 位 可 以 充分 利用 


此 外 ， 神 经 网 络 对 于 噪声 的 健壮 性 很 强 ， 因 为 量化 会 市 来 精度 损失 
《这 种 损失 可 以 认为 是 一 种 噪声 ) ， 并 不 会 危害 到 整体 结果 的 准确 度 。 


那 能 否 用 低 精 度 格式 来 直接 训练 呢 ? 答案 是 ， 大 多 数 情况 下 是 不 能 
的 。 因 为 在 训练 时 ， 尽 管 前 癌 传 播 能 够 顺利 进行 ， 但 往往 反 辐 传播 中 需 
要 计算 梯度 。 例 如 ， 梯 度 是 0.2， 使 用 浮 点 数 可 以 很 好 地 表示 ， 而 整数 
就 不 能 很 好 地 表示 ， 这 会 导致 梯度 消失 。 因 此 需要 使 用 高 于 8 位 的 值 来 
计算 梯度 。 因 此 ， 正 如 在 本 节 一 开始 介绍 的 那样 ， 在 移动 端 训练 模型 的 
思路 往往 是 ， 在 PC 上 正常 训练 好 浮 点 数 模型 ， 然 后 下 接 将 模型 转换 成 8 
位 ， 移 动 端 是 使 用 8 位 的 模型 来 执行 预测 的 过 程 。 








下 面 我 们 就 以 8 位 精度 的 存储 和 计算 来 说 明 。 
1. 量化 示例 


我 们 举 个 将 GoogleNet 模 型 转换 成 8 位 模型 的 例子 ， 看 看 模型 的 大 小 
减 小 多 少 ， 以 及 用 它 预 测 的 结果 怎么 样 。 


从 官方 网 站 上 下 载 站 训练 好 的 GoogleNet 模 型 ， 解 压 后 ， 放 在 /tmp 
目录 下 ， 然 后 执行 : 





bazel build tensorflow/tools/quantization:quantize graph 
bazel-bin/tensorflow/tools/quantization/quantize graph \ 
--input-/tmp/classify image graph def.pb \ 
--output node names-"softmax" --output-/tmp/quantized graph.pb \ 
--mode=eightbit 


生成 量化 后 的 模型 quantized_graph.pb 大 小 只 有 23 MB， 是 原来 模型 
classify_image_graph_def.pb (91 MB) 的 /4。 它 的 预测 效果 怎么 样 呢 ? 
执行 : 


bazel build tensorflow/examples/label_image:label_image 
bazel-bin/tensorflow/examples/label_image/label_image \ 
--image=/tmp/cropped_panda.jpg \ 
--graph=/tmp/quantized_graph.pb \ 
--labels-/tmp/imagenet synset to human label map.txt V 
--input_width=299 \ 

--input_height=299 \ 

--input_mean=128 \ 

--input_std=128 \ 

--input layerz"Mul:0" \ 

--output_layer="softmax:@" 





运行 结果 如 图 19-1 所 示 ， 可 以 看 出 8 位 模型 预测 的 结果 也 很 好 。 





(878): 0.00117424 





2. 量化 过 程 的 实现 








TensorFlow 的 量化 古 通 过 将 预测 的 操作 转换 成 等 价 的 8 位 版 本 的 操 


作 来 实现 的 。 量 化 操作 过 程 如 图 19-2 所 示 。 


图 19-2 中 左 侧 是 原始 的 Relu 操 作 ， 输 入 和 输出 均 是 浮 点 数 。 右 侧 是 
量化 后 的 Relu 操 作 ， 先 根据 输入 的 浮 点 数 计算 最 大 值 和 最 小 值 ， 然 后 进 
入 量化 (Quantize) 操作 将 输入 数据 转换 成 8 位 。 一 般 来 讲 ， 在 进入 量化 
的 Relu (QuantizedRelu〉 处 理 后 ， 为 了 保证 输出 层 的 输入 数据 的 准确 
性 ， 还 需要 进行 反 量化 (Dequantize) 的 操作 ， 将 权重 再 转 回 32 位 精 
度 ， 来 保证 预测 的 准确 性 。 也 就 是 整个 模型 的 前 回 传 播 采用 8 位 整数 运 
行 ， 在 最 后 一 层 之 前 加 上 一 个 反 量化 层 ， 把 8 位 转 回 32 位 作为 输出 层 的 
输入 。 








实际 上 ， 我 们 会 在 每 个 量化 操作 (如 QuantizedMatMul、 
QuantizedRelu 等 ) 的 后 面 执行 反 量化 操作 CDequantize) , 4019-34 
侧 所 示 ， 在 QuantizedMatMul 后 执行 反 量 化 和 量化 操作 可 以 相互 抵消 。 
因此 ， 如 图 19-3 右 侧 所 示 ， 在 输出 层 之 前 做 一 次 反 量化 操作 就 可 以 了 。 


图 19-2 


图 19-3 


3. 量化 数据 的 表示 





将 浮 点 数 转换 为 8 位 的 表示 实际 上 是 一 个 压缩 问题 。 实 际 上 ， 权 重 
和 经 过 激活 函数 处 理 过 的 上 一 层 的 输出 (也 就 是 下 一 层 的 输入 〉 实际 上 
古 分 布 在 一 个 范围 内 的 值 。 量 化 的 过 程 一 般 是 找 出 最 大 值 和 最 小 值 后 ， 
将 分 布 在 其 中 的 浮 点 数 认 为 是 线性 分 布 ， 做 线性 扩展 。 因 此 ， 假 设 最 小 





值 是 -10.0f， 最 大 值 是 30.0f， 那 量化 后 的 结果 如 表 19-1 所 示 。 


表 19-1 


量化 后 的 值 原始 的 浮 点 数 











19.1.2 ”优化 矩阵 乘法 运算 


谷歌 公司 开源 了 一 个 小 型 独立 的 低 精 度 通 用 惩 阵 乘法 〈General 
Matrix to Matrix Multiplication, GEMM) 库 





gemmlowp !4! 。 


19.2 iOS ELSE 





ASS Ast Scd Am VE se TE IOS A8 Zt E E TensorFlowfzFE, £A 
后 真实 地 编译 一 个 能 在 Xcode 模 拟 器 中 运行 的 图 片 识别 模型 ， 随 后 讲解 
使 用 自己 的 数据 ， 如 何在 PC 端 训 练 好 一 个 模型 ， 经 过 3 道 工 序 的 模型 优 
化 后 ， 编 译 成 iOS 文 持 的 模型 ， 并 生成 iOS 工 程 文 件 安装 在 iPhone 上 运 
AT 
19.2.1 环境 准备 


需要 运行 在 操作 系统 Mac OS X 上 的 集成 开发 工具 Xcode，7.3( 伟 ) 
以 上 版 本 即 可 。 图 19-4 是 笔者 所 用 的 版 本 。 


Xcode 


Version 8.3.1 (8E1000a) 





Acknowledgments License Agreement 


图 19-4 


随后 ， 需 要 编译 包含 TensorFlow 核 心 的 静态 库 ， 在 tensorflow-1.1.0 
目录 下 运行 : 


tensorflow/contrib/makefile/download_dependencies.sh 





运行 时 会 把 相应 的 依赖 库 下 载 到 
tensorflow/contrib/makefile/downloads/ 目 录 下 : 


I— eigen # C++ 开源 矩阵 计算 工具 
gemmlowp # 小 型 独立 的 低 精 度 通用 矩阵 乘法 (GEMM) Æ 
googletest # 谷歌 开源 的 C++ 测试 框架 
protobuf # 谷歌 开源 的 数据 交换 格式 协议 
re2 # 谷歌 开源 的 正则 表达 式 库 















































19.2.2 ”编译 演示 程序 并 运行 
在 tensorflow-1.1.0 目 录 下 运行 : 


tensorflow/contrib/makefile/build all ios.sh 





经 过 编译 后 会 生成 一 个 静态 库 ， 位 于 
tensorflow/contrib/makefile/gen/lib F, ùn F: 


I— ios ARM64 

t— ios ARMV7 
ios ARMV7S 

— ios 1386 


L— ios X86 64 
| 


libtensorflow-core.a 





XX INE ait n] VATE XcodeB teas E iOS i EST Apply Filla Bil 
f. 


在 TensorFlow 的 iOS 示 例 9) 中 ， 共 有 3 个 目录 ， 代 表 3 个 示例 ， 其 中 
benchmark 目 录 是 预测 的 基准 示例 ，simple 目 录 是 图 片 的 预测 示例 ， 
camera 目 录 是 视频 流 实时 预测 示例 。 





从 官方 网 站 (9) 上 下 载 Inception V1 模型 ， 这 是 在 ImageNet 上 训练 好 
的 能 识别 1000 类 图 片 的 识别 模型 。 


把 解压 后 的 Inception V1 模型 分 别 复 制 到 benchmark、simple、 
camera 下 的 data 目 录 中 ， 分 别 进 入 这 3 个 目录 ， 运 行 目录 下 后 级 名 为 
Xcodeproj 的 文件 。 如 图 19-5 所 示 ， 进 入 simple 目 录 中 运行 。 





(tf) 29 simple 
total 88 
-rw-r--r-- 
-rw-r--r-- 


lijiaxuan 
lijiaxuan 
lijiaxuan 
lijiaxuan 
lijiaxuan 


AppDelegate.h 
AppDelegate.mm 
RunModel-Info.plist 
RunModelViewController.h 
RunModelViewController.mm 
RunModelViewController.xib 
data 

1os_image_Load.h 

ios. image. load.mm 

main.mm 

tf ios makefile example.xcodeproj 


-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 


drwxr-xr-x 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
drwxr-xr-x@ 


lijiaxuan 
lijiaxuan 
lijiaxuan 
lijiaxuan 
lijiaxuan 





ood RRR RR AA 


1 
1 
1 
1 
1 
-rw-r--r-- 1 lijiaxuan 
6 
1 
1 
1 
5 


图 19-5 


这 个 程序 识别 的 图 像 是 我 的 一 张 书包 照片 (如 图 19-6 所 示 )〉 ， 将 它 
放 在 tensorflow/contrib/ ios_examples/simple/data 目 录 下 ， 并 命名 为 
grace hopper.jpg. 





图 19-6 


如 图 19-7 所 示 ， 选 择 iPhone 7 Plus 模拟 器 ， 并 点 击 左 上 角 运 行 标 





志 ， 编 译 完成 后 ， 模 拟 器 的 页 面 会 出 现 一 个 “Run Model” 按 钮 ， 每 单 击 
一 次 按钮 就 进行 一 次 预测 ， 预 测 结果 见 Xcode 的 控制 台 。 





Y A tt jos_makefile_example 18 issues 
Y A Value Conversion Issue 
* A Implicit conversion loses integer precision: ‘size_t! (aka 
unsigned long’) to ‘int’ 

partial tensor shape.h 

© in file included trom /Usersitifiaxuan/Oocuments/ttt/tf1.0/ 
tensorflow/contrib/ios_examples/simple/RunModel View 
Controller.mm:28 

@ in file included from /Usersitiiaxuan/Documents/ttt/tt1.0/ 
tensorflow/contrib/ios_examples/simple../.J-./-1 
tensorflow/corejframework/op. kernel.h:26: 

@ in file included from JUsers/lijiaxuan/Documents/ttt/tHi.0/ 
tensorfiow/contrib/ios. examples/simplel..J....| 
tensorflow/corejframework/function.h:20: 

@ in file included trom /Users/lifiaxuan/Oocuments/ttt/tt1.0/ 
tensorflow/contrib/ios.examples/simplej..|.. |. 
tensorflow/core/framework[attr. value util.h:22: 


No Editor 


A implicit conversion loses integer precision: 'size. t' (aka 
iPhone 7 Plus - iOS 10.3 (14E269) 





/Usersjiaxvany/Library/Developer) 

CoreSimulator/Devices/ P EE 

i A > 4f | tot misti samo 

NM 2017-04-19 21:23:32.747138: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine 
E and could speed up CPU computations. 

2017-04-19 21:23:32.747416: W tensorflow/core/platform/cpu feature guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine 

and could speed up CPU computations. 

2017-04-19 21:23:32.747506: W tensorflow/core/platform/cpu feature guard.cc:45] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and 

could speed up CPU computations. 

40; 2017-04-19 21:23:32.747827: W tensorflow/core/platform/cpu feature guard.cc:45] The TensorFlow library wasn't compiled to use AVX2 instructions, but these are available on your machine 

and could speed up CPU computations. 

2017-04-19 21:23:32.747975: W tensorflow/core/platform/cpu feature guard.cc:45] The TensorFlow library wasn't compiled to use FMA instructions, but these are available on your machine and 

CPU computations. 

32.749833: I /Users/lijiaxuan/Documents/ttt/tf1.0/tensorflow/contrib/ios examples/simple/RunModelViewController.mm:149] Session created. 





2017-04-19 
2017-04-19 32.750006: I /Users/lijiaxuan/Documents/ttt/tf1.0/tensorflow/contrib/ios examples/simple/RunModelViewController.mm:152] Graph created. 
2017-04-19 32.903454: I /Users/lijiaxuan/Documents/ttt/tf1.0/tensorflow/contrib/ios examples/simple/RunModelViewController.mm:187] Creating session. 


2017-04-19 21:23:33.199094: I /Users/lijiaxuan/Documents/ttt/tf1.0/tensorflow/contrib/ios examples/simple/RunModelViewController.mm:256] Predictions: 847 0.754 backpack 
01 B18 0.191 mailbag 4e. ~ 


图 19-7 


可 以 看 出 ， 识 别 结 果 背 包 (backpack) 的 概率 是 0.754， 第 二 个 预测 
结果 是 邮 袋 (mailbag) ， 概 率 是 0.191。 
19.2.3 ” 目 定 义 模 型 的 编译 及 运行 


如 有 果 我 们 想 要 训练 目 己 的 模型 在 手机 病人 做 预测 ， 该 如 何 做 呢 ? 这 里 
我 们 假设 想 在 手机 上 有 一 个 实时 花卉 识别 模型 ， 当 打开 App 时 ， 摄 像 头 
对 准 某 束 花 ，App 立 刻 告诉 我 这 束 花 的 品种 。 Ul 








我 们 从 宣 方 网 站 下 载 花 卉 数据 中 。 解 压 放 在 /tmp 下 后 ， 可 以 看 到 
郁金香 (tulips) . XX3E (roses) . 38233 (dandelion) ~ IH» 


(sunflowers) ~ 44g (daisy) 5 种 花 弄 的 文件 目录 ， 每 个 目录 中 存放 着 
近 800 张 该 花 开 品种 的 图 片 ， 如 下 : 
I—— LICENSE.txt 


— daisy 
I—— dandelion 


roses 


— sunflowers 


L— tulips 





1. 训练 原始 模型 


我 们 使 用 TensorFlow 官 方 网 站 提供 的 预 训练 好 的 Inception V3 模型 
9 在 此 花 弄 数据 集 上 进行 训练 。 在 项 目 根 目录 tensorflow-1.1.0 下 执行 : 


python tensorflow/examples/image retraining/retrain.py \ 
--bottleneck_dir=/tmp/bottlenecks/ \ 

--how many training steps 10 \ 
--model_dir=/tmp/inception \ 
--output_graph=/tmp/retrained_graph.pb \ 

--output labels-/tmp/retrained labels.txt \ 

--image dir /tmp/flower photos 





训练 完成 后 ， 可 以 在 /tmp 下 看 到 生成 的 模型 文件 
retrained_graph.pb 〈 大 小 为 83 MB) 和 标签 文件 retrained_labels.txt。 


我 们 看 到 ， 上 述 命令 行 中 存储 和 使 用 了 “瓶颈 ”(bottlenecks) X 
件 。 瓶 颈 是 用 于 描述 实际 进行 分 类 的 最 终 和 输出 层 之 前 的 层 〈 倒 数 第 二 
EO 的 非 正 式 术语 。 倒 数 第 二 层 已 经 被 训练 得 很 好 ， 因 此 瓶颈 值 会 是 一 
个 有 意义 且 紧 凑 的 图 像 摘 要 ， 并 且 包 含 足够 的 信息 使 分 类 器 做 出 选择 。 
因此 ， 在 第 一 次 训练 的 过 程 中 ，retrain.py 文 件 的 代码 会 先 分析 所 有 的 图 
片 ， 计 算 每 张 图 片 的 瓶颈 值 并 存储 下 来 。 因 为 每 张 图 片 在 训练 的 过 程 中 
会 被 使 用 多 次 ， 因 此 在 下 一 次 使 用 的 过 程 中 ， 可 以 不 必 重 复 计 算 。 这 里 
用 tulips/9976515506_d496c5e72c.jpg 为 例 ， 生 成 的 瓶颈 文件 为 tulips/ 
9976515506_d496c5e72c.jpg.txt， 内 容 如 图 19-8 所 示 。 











图 19-8 


2. 编译 成 0S 文 持 的 模型 [10 


这 里 ， 从 原始 模型 到 iOS 支 持 的 模型 将 经 过 3 个 阶段 的 处 理 。 首 先是 
去 掉 iOS 系 统 不 支持 的 操作 ， 并 优化 模型 ， 然 后 将 模型 进行 量化 ， 权 重 
变 为 8 位 的 种 数 ， 缩 小 模型 ， 最 后 对 模型 做 一 个 内 存 映 射 。 我 们 接 下 来 
分 步骤 细 讲 。 


(1) 去 挥 iOS 不 文 持 的 操作 并 优化 模型 。 





因为 移动 设备 的 内 存 资源 稀缺 ， 并 且 还 需要 下 载 应 用 程序 ， 所 以 默 
认 情 况 下 ，iOS 版 本 的 TensorFlow 仪 支持 在 预测 阶段 中 第 见 的 且 没 有 很 
大 的 外 部 依赖 关系 的 操作 。 官 方 网 站 维护 了 一 份 支持 的 操作 列表 1 。 


目前 有 个 操作 DecodeJpeg 不 被 文 持 ， 这 个 操作 是 用 来 对 JPEG 格 式 的 
图 片 进行 解码 的 ， 但 古 它 的 实现 依赖 于 libjpeg，libjpeg 在 iOS 上 的 文 持 非 
常 麻烦 ， 并 且 还 会 增加 二 进 制 的 占用 空间 。 同 时 ， 对 于 本 次 的 应 用 来 
说 ， 我 们 币 望 从 摄像 头 中 实时 识别 出 花 开 的 种 类 ， 直 接 处 理 相 机 的 图 像 
缓冲 区 ， 不 需要 先 存 成 JPEG 文 件 ， 然 后 再 解码 。 








而 恰好 我 们 基于 预 训练 模型 Ihnception v3 是 从 图 片 数 据 集中 训练 而 
得 ， 模 型 是 包含 了 DecodeJpeg 操 作 。 所 以 需要 把 输入 数据 直接 供给 
(feed) 发 生 在 Decode 后 的 Mul 操 作 来 绕 过 Decode 操 作 。 


而 恰好 我 们 基于 预 训练 模型 Inception V3 训练 的 模型 包含 了 
DecodeJpeg 操 作 ， 所 以 把 输入 数据 直接 填充 Ceed) 到 发 生 在 解码 后 的 
Mu 操作 来 绕 过 解码 操作 。 


这 个 步骤 也 会 做 一 些 优化 来 加 速 预测 ， 例 如 ， 将 显 式 批 处 理 规范 化 
(explicit batch normalization) 操作 合并 到 卷 积 权重 中 ， 以 减少 计算 次 
数 。 命 令 如 下 : 


bazel build tensorflow/python/tools:optimize_for_inference 
bazel-bin/tensorflow/python/tools/optimize for inference V 
--input-/tmp/retrained graph.pb \ 
--output-/tmp/optimized graph.pb \ 

--input_names=Mul \ 

--output names-final result 





在 /tmp/ 生 成 模型 optimized_graph.pb〈 大 小 为 83 MB) ， 可 以 通过 


label_image 命 令 来 预测 ， 验 证 模型 的 有 效 性 ， 如 下 : 


bazel-bin/tensorflow/examples/label_image/label_image \ 
--output_layer=final_result \ 
--labels=/tmp/retrained_labels.txt \ 

--image-/tmp/flower photos/daisy/5547758 eea9edfd54 n.jpg \ 
--graph-/tmp/optimized graph.pb 

--input_layer=Mul 





结果 如 图 19-9 所 示 ， 模 型 还 是 有 效 的 。 


2017-04-17 03:37:47.587388: I tensorflow/examples/label. image/main.cc: daisy (4): 0.380978 
2017-04-17 03:37:47.587407: I tensorflow/examples/label image/main.cc: sunflowers (3): 0.192993 
: I tensorflow/examples/label image/main.cc: dandelion (2): @.158009 


: I tensorflow/examples/Label_image/main.cc: tulips (0): 0.148149 
2017-04-17 03:37:47.587419: I tensorflow/examples/label image/main.cc: roses (1): 0.119872 





图 19-9 
(20 量化 模型 。 


尽管 笠 果 系统 在 .ipa 包 中 分 发 应 用 程序 ， 所 有 应 用 程序 中 的 资源 都 
会 使 用 zip 压 缩 。 但 通常 模型 不 能 很 好 地 压缩 ， 因 此 将 模型 权重 从 浮 点 
数 转化 为 整数 〈 范 围 为 0 一 255) ， 会 损失 一 些 准确 度 ， 但 通常 小 于 
1%。 运 行 命令 如 下 : 








bazel build tensorflow/tools/quantization:quantize graph 
bazel-bin/tensorflow/tools/quantization/quantize graph \ 
--input=/tmp/optimized_graph.pb \ 
--output=/tmp/rounded_graph.pb \ 

--output node names-final result \ 

--mode-weights rounded 


在 /tmp 下 生成 模型 rounded_graph.pb， 大 小 为 83MB， 但 是 经 过 zip 命 
令 压 缩 能 达到 23 MB. 


(3) 内存 映射 。 





我 们 需要 处 理 的 最 后 一 个 步骤 是 内 存 映 射 4 (memory 
mapping) 。 如 果 App 把 83 MB 的 模型 全 部 一 次 性 加 载 到 内 存 缓冲 区 ， 光 
加 载 这 一 步 就 会 对 i0S 的 RAM 上 施加 很 大 的 压力 ， 同 时 ， 操 作 系 统 会 不 
可 预知 地 杀 死 使 用 内 存 过 多 的 应 用 程序 。 我 们 需要 使 用 的 模型 权 值 缓冲 
区 是 只 读 的 ， 因 此 可 以 把 它 映 射 到 内 存 中 。 当 有 内 存 压力 时 ， 操 作 系统 
可 以 直接 释放 些 内 存 ， 来 避免 系统 直接 朋 尝 。 








如 何 来 做 呢 ? 需要 重新 排列 模型 ， 使 权重 能 够 分 部 分 逐 块 地 从 主 
GraphDef 加 载 到 内 存 中 。 运 行 命令 如 下 : 


bazel build tensorflow/contrib/util:convert graphdef memmapped format 
bazel-bin/tensorflow/contrib/util/convert graphdef memmapped format \ 
--in graph-/tmp/rounded graph.pb \ 
--out graph-/tmp/mmapped graph.pb 








这 时 会 在 /tmp 下 生成 模型 mmapped_graph.pb (大 小 为 83 MB) 。 


3. 生成 i0S 工 程 文件 并 运行 


我 们 使 用 19.2.2 节 中 粗略 介绍 过 的 视频 流 实时 预测 的 演示 程序 的 例 
子 上] ， 将 模型 文件 和 标记 文件 复制 到 tensorflow- 
1.1.0/tensorflow/contrib/ios_examples/camera/data 目 录 下 。 


然后 修改 tensorflow-1.1.0/tensorflow/contrib/ios_examples/camera 下 的 
文件 CameraExample ViewController.mm， 更 改 要 加 载 的 模型 文件 名 称 、 
输入 图 片 的 太 寸 、 操 作 贡 点 的 名 字 以 及 缩放 像素 大 小 等 。 如 下 : 


static NSString* model_file_name = @"mmapped_graph"; 
static NSString* model_file_type = @"pb"; 


const bool model_uses_memory_mapping = true; 


static NSString* labels file name = @"retrained_labels"; 
static NSString* labels file type = @"txt"; 

// 以 下 尺寸 需要 和 模型 训练 时 相 匹配 

const int wanted_input_width = 299; 

const int wanted_input_height = 299; 

const int wanted_input_channels = 3; 

const float input mean = 128.0f; 

const float input std - 128.0f; 

const std::string input layer name - "Mul"; 

const std::string output layer name - "final result"; 











最 后 连 上 iPhone 手机 ， 就 可 以 双击 tensorflow- 
1.1.0/tensorflow/contrib/ios_examples/camera/ camera_example.xcodeproj 编 
译 并 运行 Je 运行 后 ， 会 在 手机 上 安装 好 App， 打 开 App 并 找到 玫瑰 花 
来 识别 ， 识 别 结果 如 图 19-10 所 示 。 
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图 19-10 











这 里 概率 并 不 是 很 高 ， 原 因 是 我 在 训练 的 时 候 迭 代 次 数 只 设置 了 10 
次 ， 设 置 10 000 次 后 ， 可 以 使 识别 概率 达到 99% 以 上 。 


那么 ， 这 个 安装 到 iOS 系 统 上 的 工程 文件 里 面 究竟 包含 了 什么 ， 才 
达到 用 摄像 头 实时 识别 的 目的 呢 ? 生 成 的 打包 好 的 工程 文件 位 
于 /Users/lijiaxuan/Library/Developer/Xcode/DerivedData/ camera, example- 
dwwvzqamrwtfblfprxmxpvwasgin/Build/Products/Debug-iphoneos 下， 如 图 
19-11 所 示 。 


国 Debug-iphoneos 
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图 19-11 


我 们 打开 CameraExample.app 文 件 一 探究 葛 。 里 面 就 包含 了 安装 在 
iPhone 上 的 可 执行 文件 CameraExample 以 及 以 资源 文件 方式 存储 的 模型 
文件 mmapped_graph.pb 和 标记 文件 retrained_labels.txt， 如 图 19-12 所 示 。 
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19.3 Android & Zi 3: Ee M 


本 市 先 带领 读者 准备 好 Android 系 统 的 编译 环境 ， 然 后 再 真实 地 编 
译 一 个 能 在 Android 手 机 上 运行 的 图 片 识别 模型 ， 随 后 讲解 使 用 目 己 的 
数据 ， 如 何在 PC 端 训练 好 一 个 模型 ， 经 过 模型 优化 后 ， 编 译 成 Android 


支持 的 模型 ， 并 生成 Android apk 文 件 安 装 在 Android 手 机 上 运行 。 





19.3.1 环境 准备 


下 面 就 一 步 一 步 地 介绍 如 何在 有 摄像 头 的 Android 设 备 上 运行 
TensorFlow 的 图 片 分 类 器 。 我 们 先 来 搭建 环境 ， 需 要 依赖 Java、Android 
SDK、Android NDK、Bazel。 这 里 仍然 使 用 Mac Pro 笔 记 本 进行 演示 ， 
其 他 操作 系统 的 搭建 环境 与 此 类 似 。 


1. 搭建 Java 环 境 


从 Oracle 官 方 网 站 下 载 JDK 1.8 版 本 U51 ， 得 到 jdk-8u111-macosx- 
X64.dmg 文 件 ， 双 击 进 行 安装 ， 如 图 19-13 所 示 。 


eee | JDK 8 Update 111 





Java Development Kit 
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JDK 8 Update 111.pkg 





图 19-13 
安装 完毕 后 ， 设置 Java 的 环境 变量 ， 如 下 : 


JAVA_HOME= /usr/libexec/java_home` 
export JAVA HOME 





2. 搭建 Android SDK 环 境 


从 Android 官 方 网 站 06] 下 载 Android SDK， 这 里 使 用 的 是 25.0.2 版 
本 ， 得 到 文件 android- sdk_r25.0.2-macosx.zip， 然 后 直接 解压 ， 放 在 
~/Library/Android/sdk 目 录 下 。 解 压 后 里 面 的 目录 如 下 : 





I—— build-tools 
一 extras 

— patcher 

—— platform-tools 
— platforms 
— sources 
system-images 


— temp 


L——— tools 


; 


# 各 版 本 SDK。 有 根据 API Level 划 分 的 SDK 版 本 





# 临时 文件 来， 一 般 在 SDK 更 新 安装 时 用 到 
# 各 版 本 通用 的 SDK 工 具 。 含 有 adb、aapt、aid1、dx 等 文件 

















3. 搭建 Android NDK 环 境 


从 Android 官 方 网 站 U7! FX; Android NDK 的 Mac OS X 版 本 ， 得 到 
android-ndk-r13b-darwin-x86_64.zip 文 件 ， 直 接 解 压 即 可 。 解 压 后 得 到 的 


目录 如 下 : 





ndk-build 
ndk-depends 
ndk-gdb 
ndk-stack 
ndk-which 
platforms 
prebuilt 
python-packages 
shader-tools 
simpleperf 
source.properties 
sources 
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4. 搭建 Bazel 


直接 使 用 brew 安 装 bazel， 如 下 : 


brew install bazel 





若 已 安装 ， 用 如 下 方式 更 新 : 


brew upgrade bazel 








19.3.2 ”编译 演示 程序 并 运行 


至 此 ， 编 译 Android 手 机 的 apk 文 件 需要 用 的 环境 都 已 经 搭建 好 了 。 
下 面 就 来 编译 一 个 TensorFlow 的 图 片 分 类 演示 程序 ， 并 在 Android 手 机 上 
运行 。 相 关 演 示 程 序 在 https:Wgithub.comy/ 


tensorflow/tensorflow/tree/master/tensorflow/examples/android 。 





1. 编译 演示 程序 


首先 ， 修 改 tensorflow-1.1.0 的 根 目 录 中 的 WORKSPACE 文 件 。 将 


android sdk repositoryfllandroid ndk repository] Mt Ei i573 HP? A e. az 
闭 目 录 及 版 本 。 有 具体 如 下 : 


android sdk_repository( 
name = "androidsdk", 
api_level = 25, 
build tools version = "25.0.2", 
# Replace with path to Android SDK on your system 
path = "^/Library/Android/sdk", 
) 


android_ndk_repository( 


name-"androidndk", 
pathz"^/Downloads/android-ndk-r13b", 
api level-23) 





修改 完毕 后 ， 在 根 目录 用 bazel 构 建 : 


bazel build //tensorflow/examples/android:tensorflow demo 





运行 结果 如 下 : 





Target //tensorflow/examples/android:tensorflow_demo up-to-date: 
bazel-bin/tensorflow/examples/android/tensorflow_demo_deploy.jar 
bazel-bin/tensorflow/examples/android/tensorflow_demo_unsigned.apk 
bazel-bin/tensorflow/examples/android/tensorflow_demo.apk 

INFO: Elapsed time: 39.357s, Critical Path: 15.21s 


在 编译 成 功 之 后 ， 默 认 会 在 tensorflow-1.1.0/bazel- 
bin/tensorflow/examples/android 目录 下 面 生 成 我 们 想 要 的 TensorFlow 演 
示 程 序 ， 如 图 19-14 所 示 。 
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图 19-14 


下 面 我 们 就 把 生成 的 apk 文 件 安装 到 Android 手 机 上 并 运行 。 


从 


2 和 运行 


将 生成 的 apk 文 件 传输 到 手机 上 ， 利 用 手机 摄像 头 看 看 效果。 这 里 
采用 的 是 小 米 Note 手 机 ， 搭 载 Android 6.0.1 版 本 ， 并 且 需 要 开启 “开发 者 
模式 ”。 将 手机 用 数据 线 与 计算 机 相连 ， 进 入 SDK 所 在 的 目录 下 ， 进 入 
platform-tools 文 件 夹 ， 找 到 adb 命 令 ， 并 执行 : 


./adb install tensorflow-0.12/bazel-bin/tensorflow/examples/android/tensor 
flow demo.apk 





这 样 就 将 tensorflow_demo.apk 自 动 安 装 到 手机 上 了 ， 在 手机 上 会 生 
成 图 19-15 所 示 的 两 个 App 图 标 。 


打开 TF Detect 的 App，App 会 调 起 手机 摄像 头 ， 对 摄像 头 返 回 的 数 
据 流 进行 实时 监测 ， 监 测 结果 如 图 19-16 所 示 。 


TF Classify 
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看 起 来 精度 并 不 是 很 高 ， 与 手机 摄像 头 的 像素 有 关系 。 该 者 可 以 定 


制 上 自己 的 图 片 分 类 器 ， 训 练 好 模型 后 ， 重 新 编译 apk 即 可 。 
19.3.3” 自 定义 模型 的 编译 及 运行 


本 节 和 19.2.3 节 中 的 步骤 基本 相同 ， 仍 然 分 为 3 步 : 训练 原始 模型 、 
编译 成 Android 系 统 文 持 的 模型 ， 以 及 生成 Andriod apk 文 件 并 运行 。 


其 中 ， 训 练 原 始 模型 和 编译 成 Android 系 统 文 持 的 模型 的 过 程 都 是 
相同 的 ， 因 为 都 是 使 用 项 目 根 目录 下 的 
tensorflow/python/tools/optimize for inference.py. 
tensorflow/tools/quantization/ quantize graph.py. 
tensorflow/contrib/util/convert_graphdef_memmapped_format.cc7} PXH 
型 进行 优化 。 这 里 ， 我 们 直接 将 第 一 步 生成 的 原始 模型 文件 
retrained_graph.pb 和 标记 文件 retrained_labels.txt 放 在 


tensorflow/examples/android/assets 日 录 下 。 


需要 修改 
tensorflow/examples/android/src/org/tensorflow/demo/TensorFlowImageClas: 
FF BE IT a Ie A SCE OR AAR BN T. BAET Ex B n SERT BU ar A 
BURABA/DSS, XURH9.2.3 8 FAW, Hææ Havan a SOL. 77 
法 如 下 : 





private static final int INPUT_SIZE = 299; 

private static final int IMAGE MEAN = 128; 

private static final float IMAGE STD - 128; 

private static final String INPUT NAME = "Mul:8"; 

private static final String OUTPUT NAME = "final result:0"; 

private static final String MODEL FILE - "file:///android asset/retrained 
graph.pb"; 

private static final String LABEL FILE - "file:///android asset/retrained 
labels.txt"; 


然后 重新 编译 apk， 连 接 上 Android 手 机 后 ， 安 装 apk， 方 法 如 下 : 


bazel build //tensorflow/examples/android:tensorflow demo 
adb install -r -g bazel-bin/tensorflow/examples/android/tensorflow demo.apk 





运行 结果 仍 如 图 19-10 所 示 。 


19.4 树 每 派 实践 


TensorFlow 还 可 以 在 树 侮 派 (Raspberry Pi) E47, MARE RA 
信用 卡 大 小 的 微型 电脑 ， 系 统 基于 Linux， 它 也 有 音频 和 视频 功能 。 现 
在 有 很 多 树 答 派 的 应 用 ， 例 如 ， 输 入 1 万 张 自 己 的 面部 图 片 ， 在 树 等 派 
上 训练 人 脸 识别 的 模型 ， 教 会 它 认 识 你 后 ， 可 以 在 你 进入 家 门 后 ， 帮 你 
开 灯 、 播 放 音 乐 等 各 种 功能 。 树 每 派 上 的 编译 方法 和 直接 在 Linux 环 境 
上 使 用 十 分 相似 ， 读 者 可 以 自己 参考 文档 。 





19.5 £z 


本 章 讲解 了 移动 端 模型 的 应 用 原理 ， 重 点 讲解 了 量化 这 一 重要 思 
想 ， 介 绍 了 TensorFlow 在 iOS 和 Android 移 动 端的 应 用 ， 并 采用 
TensorFlow 的 工具 对 生成 的 原始 模型 进行 优化 、 量 化 和 内 存 上 映射 。 其 原 
理 都 是 借助 有 摄像 头 的 手机 来 做 分 类 和 物体 识别 。 随 着 移动 端 手机 性 能 
的 提高 ， 在 移动 端 做 深度 学 习 会 有 很 大 前 景 。 














[1] im2col 的 主要 功能 是 对 索引 的 图 像 块 重 排列 为 矩阵 列 。 它 是 先 将 一 
个 大 矩阵 ， 重 登 地 划分 为 多 个 子 矩 阵 ， 对 每 个 子 窍 阵 序列 化 成 同 量 ， 最 
后 得 到 男 一 个 矩阵 。 
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http://download.tensorflow.org/models/image/imagenet/inception-2015-12- 


05.tgz 。 
[4] ” 库 地 址 为 https://github.com/google/gemmlowp 。 
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[17]  https://developer.android.com/ndk/downloads/index.html 


第 20 章 “TensorEFlow 的 其 他 特性 


随 着 TensorFlow 的 版 本 不 断 达 代 ， 目 前 它 已 经 有 很 多 新 特性 。 除 了 
第 15 章 和 第 16 章 介绍 的 XLA 和 Debugger 外 ， 还 有 一 个 非常 好 的 生产 系统 
使 用 模型 服务 系统 一 一 TensorFlow Serving， 以 及 文 持 动态 图 计算 的 
TensorFlow Fold。 此 外 ， 还 有 一 些 基 于 硬件 的 优化 方法 也 是 目前 人 工 智 
能 及 展 的 趋势 。 本 章 就 来 介绍 一 下 这 些 内 容 。 








20.1 ‘TensorFlow Serving [1] 


TensorFlow Serving 是 专 为 生产 环境 设计 的 一 种 灵活 、 高 性 能 的 机 器 
学 习 模型 服务 系统 。 它 非常 适合 基于 实际 情况 的 数据 大 规模 地 运行 ， 会 
产生 多 个 模型 的 训练 过 程 。 








TensorFlow Serving 可 以 用 于 开发 过 程 和 生产 过 程 ， 有 以 下 两 个 主要 
VE © 








OD 对 模型 的 生命 周期 进行 管理 。 一 个 模型 一 般 是 先 数据 训练 ， 
然后 逐步 产生 初步 的 模型 ， 随 后 优化 模型 。 图 20-1 所 示 为 持续 的 模型 训 
练 流 。 


持续 的 训练 过 程 





a" 4 
o is BG 2 
PASS A a. Ng 
su Rs ANS | 
数据 > 学 习 过 程 > 模块 1 模块 2 
图 20-1 





(2) 当 模 型 采用 多 重 算法 进行 试验 时 ， 对 生成 的 模型 进行 管理 。 
当 客 户 端 〈Client) []TensorFlow Serving 请 求 模型 后 ，TensorFlow 
Severing 会 返回 适当 的 模型 给 客户 端 。 图 20-2 所 示 为 TensorFlow Severing 
架构 关系 图 。 
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图 20-2 


另外 ，TensorFlow 主 要 支持 Python 和 C++， 最 近 又 增加 了 对 Java、 
Ruby 和 Go 的 支持 。 但 是 ， 大 部 分 用 户 可 能 是 基于 Python API 来 构建 图 和 
训练 模型 的 ， 直 接 使 用 其 他 编程 语言 访问 模型 比较 困难 。 有 了 
TensorFlow Serving 和 gRPC P! ， 就 可 以 提供 跨 语言 的 RPC 接 口 ， 使 用 
Java、Go 甚 至 是 Ruby 都 可 以 直接 访问 这 些 模型 。 





TensorFlow Serving 的 代码 位 于 https://github.com/ tensorflow/serving 
， 安 装 过 程 可 以 采用 源 代码 Bazel 编 译 安装 BS ， 或 者 采用 Docker 安 装 。 


具体 的 过 程 可 以 参考 TensorFlow 官 方 网 站 A 。 


在 第 17 章 我 们 讲解 了 通过 Kubernetes 来 实现 TensorFlow 人 集群， 其实 
还 可 以 结合 TensorFlow Serving， 为 训练 好 的 模型 创建 一 个 Docker 镜 像 ， 
将 它 推送 到 Google Container Registry P! 上， 这 样 模型 就 可 以 在 谷歌 云 平 
& (Google Cloud Platform) 上 运行 了 ， 也 就 是 说 ， 在 Kubernetes 里 成 功 
部 敬 了 模型 的 服务 。 详 细 的 安装 方法 可 以 参考 TensorFlow 官 方 网 站 
的 “Serving Inception Model with TensorFlow Serving and Kubernetes" l6! 
。 男 外 ， 谷 歌 还 提供 了 Google ML Engine， 这 是 一 个 全 托管 的 
TensorFlow 平 台 ， 能 把 训练 的 模型 一 键 转换 为 预测 服务 。 


20.2 TensorFlow Flod ! 





一 般 的 深度 学 习 过 程 是 ， 先 对 模型 的 训练 数据 进行 预 处 理 ， 把 不 同 
结构 的 数据 筋 裁 成 相同 的 维度 和 F 矿 寸 ， 划 分 为 一 批 批 的 ， 进 入 到 训练 流 
程 里 。 


这 种 训练 方式 称 为 “静态 图 模型 ”。 它 的 缺点 在 于 ， 如 果 输 入 数据 无 
法 进行 一 般 的 预 处 理 ， 模 型 融 必 须 针 对 不 同 的 输入 数据 建立 不 同 的 计算 
图 (computation graph) 分 别 进 行 训练 ， 对 处 理 器 、 内 存 和 高 速 缓存 都 
没有 很 好 地 利用 。 











TensorFlow Fold [8] 可 以 根据 不 同 结构 的 输入 数据 建立 动态 计算 图 
(dynamic computation graph) ， 根 据 每 个 不 同 的 输入 数据 建立 不 同 的 
计算 图 。 动 态 批 处 理 〈dynamicbatching) 功能 会 自动 组 合 这 些 计 算 
图 ， 实 现在 输入 数据 内 部 的 批 处 理 ， 也 就 是 批 处 理 单个 输入 图 内 的 不 同 
节点 ， 以 及 不 同 输 入 数据 之 则 的 批 处 理 ， 也 就 是 批 处 理 不 同 输入 图 之 间 
的 运算 。 同 时 还 可 以 通过 插入 一 些 附加 指令 来 在 不 同 批 处 理 操作 之 间 移 
动 数 据 。 这 简化 了 模型 训练 阶段 对 输入 数据 的 预 处 理 过 程 。 这 些 批 处 理 
操作 的 优势 赋予 模型 后 ， 在 CPU 的 模型 的 运行 速度 提高 了 10 倍 以 上 ， 
GPU 上 提高 了 100 倍 。 





Tensorflow 的 动态 图 计算 的 提出 被 认为 是 第 一 次 清晰 地 在 设计 理念 
上 领先 其 他 深度 学 习 框架 。 


20.3 TensorFlowit 5; JME 





使 用 TensorFlow 框 架 训 练 时 使 训练 加 速 的 方法 有 很 多 。 例 如 ， 可 以 
通过 用 GPU 的 设备 来 实现 ， 可 以 通过 XLA 框 架 对 部 分 OP 进行 融合 ， 还 
可 以 采用 分 布 式 的 方式 将 计算 部 分 和 参数 部 分 分 布 到 不 同 机 器 上 来 提升 
性 能 。 同 时 ， 还 可 以 利用 硬件 来 计算 ， 如 利用 CPU 的 更 高 级 的 指令 集 ， 
如 SSE、AVX 等 ， 用 FPGA 编 写 文 持 TensorFlow 的 计算 单元 等 。 这 里 我 
们 先 讲解 一 下 在 CPU 的 情况 下 如 何 进行 优化 ， 使 用 CPU 运 行 时 可 能 出 现 
哪些 警告 ， 提 出 优化 的 方向 ， 随 后 讲解 FPGA 的 加 速 原 理 。 





20.3.1 CPU 加 速 


如 傈 是 直接 采用 pip 命 令 的 方式 安装 的 ， 可 能 会 报 出 以 下 警告 : 





2017-02-26 13:27:48.579303: W tensorflow/core/platform/cpu_feature_guard.c 
c:45] 

The TensorFlow library wasn't compiled to use SSE4.1 instructions, but the 
se are 

available on your machine and could speed up CPU computations. 

2017-02-26 13:27:48.579512: W tensorflow/core/platform/cpu_feature_guard.c 
c:45] 

The TensorFlow library wasn't compiled to use SSE4.2 instructions, but the 
se are 

available on your machine and could speed up CPU computations. 

2017-02-26 13:27:48.579519: W tensorflow/core/platform/cpu_feature_guard.c 
c:45] 

The TensorFlow library wasn't compiled to use AVX instructions, but these 
are 

available on your machine and could speed up CPU computations. 

2017-02-26 13:27:48.579524: W tensorflow/core/platform/cpu_feature_guard.c 
c:45] 

The TensorFlow library wasn't compiled to use AVX2 instructions, but these 
are 

available on your machine and could speed up CPU computations. 

2017-02-26 13:27:48.579528: W tensorflow/core/platform/cpu feature guard.c 
c:45] 


The TensorFlow library wasn't compiled to use FMA instructions, but these 
are 


available on your machine and could speed up CPU computations. 








出 现 上 述 问 题 的 原因 是 : 为 了 尽 可 能 与 更 广泛 的 机 器 兼容 ， 
TensorFlow 默 认 仅 在 x86 机 器 上 使 用 SSE4.1 o 令 ， 而 大 多 数 现代 
PC 和 Mac 都 文 持 更 高 级 的 指令 。 因 此 ， 通 过 源 代 码 安 装 可 以 获得 最 大 性 
能 ， 可 以 开启 CPU 的 高 级 指令 集 nes AVX) 的 文 持 。 可 以 使 用 
bazel 构 建 一 个 只 能 在 上 自己 的 机 器 上 运行 的 二 进 制 文件 ， 如 下 : 
bazel build -c opt --copt=-mavx --copt=-mavx2 --Copt=-mfma --copt=-mfpmath 
=both --copt=-msse4.2 --config-cuda -k //tensorflow/tools/pip package:buil 
d_pip_package 


bazel-bin/tensorflow/tools/pip package/build pip package /tmp/tensorflow_p 
kg 





此 时 会 在 /mpy/tensorflow_pkg 下 产生 一 个 wheel 文 件 ， 再 用 pip 命 令 安 
装 这 个 wheel 文 件 。 


20.3.2 ”TPU 加 速 和 FPGA 加 速 


谷歌 目前 为 TensorFlow 设 计 了 专用 集成 蕊 厂 一 一 张 量 处 理 时 元 
(Tensor Processing Unit, TPU) 。 


FATA, CPURET IE HIS EH (如 if else) 的 能 力 很 强 ， 但 是 纯粹 
的 计算 能 力 与 GPU 相 比 就 差 一 些 ， 而 深度 学 习 恰恰 需要 做 海量 的 计算 。 








GPU 在 一 些 场景 下 运算 速度 比 CPU 要 快 ， 一 方面 是 因为 GPU 有 强大 
的 浮 点 计算 单元 ，GPU 的 着 色 器 (shader) 是 对 一 批 数据 以 相同 的 步调 
执行 相同 的 指令 流水 ， 准 确 地 讲 ，GPU 在 同一 时 钟 周期 能 执行 的 指令 的 
数量 是 千 级 别 的 ， 好 的 GPU 大 约 是 3000 多 条 ， 而 CPU 在 同一 时 钟 周 期 内 
能 执行 的 指令 数量 是 几 十 级 别 的 ， 因 此 远 超 CPU 指令 集 的 数据 并 行 能 
力 ， 作 为 代价 就 是 GPU 做 让 else 能 力 很 弱 ， 原 因 就 是 它 流水 线 并 行 能 
(同一 时 钟 周期 并 发 执行 不 同 逻 辑 序列 的 能 力 ) 很 差 ， 它 需要 这 一 批 数 
据 同步 调 地 执行 同样 的 逻辑 。 














而 神经 网 络 刚好 需要 这 样 的 大 规模 数据 并 行 的 能 力 ， 尤 其 是 CNN 中 
卷 积 、 拖 阵 运算 之 类 的 操作 ， 都 是 通过 数据 并 行 可 大 幅 提 高 性 能 的 。 





但 是 ， 因 为 GPU 出 广 后 架构 固定 ， 硬 件 原 生 文 持 的 指令 就 固定 了 ， 
所 以 ， 如 宁 神 经 网 络 中 有 GPU 不 文 持 的 指令 ，GPU 束 不 能 直接 实现 。 例 
如 ， 如 宋 想 要 计算 窍 阵 乘法 ， 但 是 奋 GPU 只 文 持 加 法 和 乘法 ， 那 就 只 能 
用 软件 模拟 的 方法 用 加 法 和 乘法 来 模拟 和 窍 阵 乘法 。 


FPGA 的 加 速 就 在 于 ， 虽 然 硬 件 中 可 能 有 不 文 持 的 指令 ， 但 是 开发 
者 可 以 在 FPGA 里 编程 ， 改 变 FPGA 的 硬件 结构 来 使 它 支持 。 


那 是 不 是 GPU 支持 足够 多 的 基础 指令 ， 就 能 打 平 FPGA 了 呢 ? 不 
是 。FPGA 加 速 在 于 它 和 GPU 和 CPU 的 体系 结构 就 不 同 。FPGA 不 是 汉 : 
诺 伊 曼 结构 的 ， 而 是 一 个 代码 描述 的 逻辑 电路 。FPGA 只 要 片上 逻辑 门 
和 引 脚 够 多 ， 全 部 输入 、 运 算 和 输出 都 在 一 个 时 钟 周期 内 完成 。FPGA 





因为 一 个 时 钟 周 期 执行 一 次 全 部 烧 好 的 电路 ， 某 种 角度 来 说 它 一 个 模块 
就 一 句 超 复杂 “指令 "*， 所 以 不 同 模块 也 算是 不 同 逻 辑 序 列 ， 并 且 这 个 序 
列 里 就 一 条 指令 。 单 元 间 通 信 这 些 汉 : 诺 伊 曼 结构 的 东西 对 于 FPGA 都 不 
是 问题 ， 不 同 运 算 单元 间 本 和 映 就 硬件 直 连 ， 所 以 才能 做 到 数据 并 行 和 流 
水 线 并 行 共存 (GPU 流水 线 并 行 能 力 约 为 0， ， 真 的 要 比 单 算 浮 点 运算 
能 力 ， 当 前 常见 的 FPGA 不 比 GPU 好 。 因 此 ， 如 果 是 需要 低 延 迟 的 预测 
推理 ， 每 批 大 小 比较 小 时 ，FPGA 更 合适 。 





而 TPU 和 FPGA 类 似 ， 它 是 一 种 专用 集成 电路 Capplication specific 
integrated circuit, ASIC) ， 但 是 硬件 逻辑 一 旦 煤 写 完毕 就 不 可 以 再 编 
程 ， 是 专门 为 TensorFlow 做 深度 学 习 开发 的 。 从 TPU 目 前 的 版 本 来 看 ， 
还 不 能 完整 运行 Tensorflow 的 功能 ， 它 的 目的 是 高 效 地 完成 预测 推理 ， 
还 不 涉及 训练 。 








20.4 小结 


本 章 介 绍 了 TensorFlow 的 其 他 新 特性 ， 如 TensorFlow Serving. 
TensorFlow Flod， 还 介绍 了 TensorFlow 的 人 硬件 加 速 方法 ， 例 如 ， 当 计算 
机 只 有 CPU 时 ， 开 发 人 员 可 以 利用 CPU 的 更 高 级 的 指令 集 ， 当 有 FPGA 
时 ， 开 发 人 员 可 以 在 FPGA 里 编程 ， 改 变 人 硬件 结构 来 文 持 神经 网 络 的 指 
令 ; 当 有 TPU 时 ， 它 完美 地 文 持 TensorFlow 的 所 有 运算 ， 效 率 最 高 。 








[1] 本 节 参 考 TensorFlow 官 方 网 站 文 
Fi: https://tensorflow.github.io/serving/ o 


[2] ”gRPC 是 谷歌 公司 开源 的 一 个 高 性 能 、 跨 语言 的 RPC 框 架 。 


[3] “与 编译 安装 TensorFlow 类 似 ， 安 装 方法 见 


https://github.com/tensorflow/serving/blob/master/tensorflow_serving/g3doc/: 


[4] https://tensorflow.github.io/serving/setup 
[5] https://cloud.google.com/container-registry/docs/ 
[6] https://tensorflow.github.io/serving/serving_inception 


[7] 本 节 参 考 论文 《Deep Learning with Dynamic Computation 
Graphs) : https://openreview.net/pdf?id=ryrGawgex . 


[8] https://github.com/tensorflow/fold 


第 21 章 ”机 器 学 习 的 评测 体系 


当 我 们 训练 完 一 个 模型 之 后 ， 如 何 评价 这 个 模型 的 好 坏 呢 ? 准确 率 
古 一 个 评价 标准 ， 但 它 仅仅 是 相对 于 这 个 模型 对 测试 集 的 预测 结果 。 抛 
开 这 些 ， 如 何 看 待 这 个 模型 在 解决 语 首 或 图 像 的 某 个 具体 问题 时 是 否 能 
发 挥 作用 呢 ? 这 就 涉及 评价 模型 的 性 能 指标 。 本 章 主要 讲解 人 脸 识别 和 
智能 聊天 机 器 人 的 性 能 指标 ， 以 及 机 器 翻译 的 评价 方法 和 常用 的 通用 评 
价 指标 。 


21.1 人 上 脸 识 别 的 性 能 指标 
人 脸 识 别 的 主要 性 能 指标 包括 鉴别 性 能 和 验证 性 能 。 


C1) 鉴别 性 能 就 是 指 是 否 鉴 别 准确 。 具 体 性 能 指标 有 以 下 几 个 。 





e ITop-K 识 别 率 : 就 是 在 给 出 的 前 K 个 结果 中 包含 正确 结果 的 概率 。 

e 错误 拒绝 辨识 率 CENIRO : 指 注册 用 户 被 系统 错误 辨识 为 其 他 注 
册 用 户 的 比例 。 

。 错误 接受 辨识 率 CFPIR) : 非 注 册 用 户 被 系统 辨识 为 某 个 注册 用 户 
的 比例 。 





(2) 验证 性 能 是 指 验证 人 脸 模 型 是 否 足够 好 。 人 性 能 指标 主要 有 以 
下 两 个 。 


e 误 识 率 (False Accept Rate, FARO : 就 是 将 其 他 人 误 作 指定 人 员 
的 概率 。 

e。 拒 识 率 (False Reject Rate, FRR) : 就 是 将 指定 人 员 误 作 其 他 人 员 
的 概率 。 


除 此 之 外 ， 还 有 识别 速度 (识别 一 副 人 脸 图 像 的 时 间 、 识 别 一 个 人 
的 时 间 ) 、 注 册 速 度 注 册 一 个 人 的 时 间 〉 等 衡量 人 脸 识别 技术 的 指 
标 。 


21.2 ”聊天 机 器 人 的 性 能 指标 


如 何 对 聊天 机 器 人 智能 程度 进行 评价 是 一 项 挑战 。 目 前 采用 的 通用 
的 客观 评价 标准 有 : 回答 正确 率 、 任 务 完成 率 、 对 话 回 合 数 、 对 话 时 
间 、 系 统 平均 啊 应 时 间 、 错 误 信息 率 等 ， 但 是 评价 的 基本 单元 是 单 轮 对 
话 。 同 时 ， 由 于 人 机 对 话 过 程 是 一 个 连续 的 过 程 ， 输 入 首 句 后 对 话 展 
开 ， 不 同系 统 的 回复 不 尽 相 同 ， 因 此 不 能 简单 地 将 连续 对 话 切 分 成 单 轮 
对 话 去 评价 。 因 此 ， 在 形成 客观 标准 之 前 ， 设 计 合 理 的 人 工 主观 评价 也 
是 对 聊天 机 器 人 智能 程度 评价 标准 的 补充 。 贞 | 

















一 个 好 的 聊天 机 器 人 应 该 具有 以 下 特点 。 


C1) 机 器 人 的 答 句 和 用 户 的 问 句 应 该 语义 一 致 ， 语 法 正确 ， 并 且 
逻辑 正确 。 





(2) 机 右 人 的 答 句 应 该 是 有 趣 的、 多样 的 ， 而 不 是 一 直 产 生 一 些 
安全 回答 ， 如 “好 呀 ”是 呀 ”之 类 。 


在 这 两 个 特点 上 ， 微 软 小 冰 就 表现 得 很 好 。 我 常 癌 用 一 句 重 复 的 话 
有 逗 它 ， 但 它 回复 非常 多 样 而 且 有 趣 ， 有 时 候 其 全 还 会 训斥 ”我 总 是 重复 
一 句 话 ， 并 且 还 能 给 出 图 片 、 各 种 角度 的 多 样 回答 ， 能 够 对 话 多 轮 ， 而 
不 会 重复 答 句 ， 给 人 对 方 词 穷 的 感 党 。 例 如 ， 图 21-1 给 出 的 是 我 和 小 冰 
的 一 次 对 话 。 


szeme saatas ip 


我 赚 的 都 发 出 去 了 。。 。 
wm ip 


F 祝 新 的 一 年 , 芝麻 开花 节 节 高 


samens 了 


F 祝 你 新 年 财源 滚滚 滚 不 停 呀 


LL 


RÀ 
rd 开 开 心心 每 一 天 咯 


和 


‘Oo wim. 








€ AY n 
F , 你 去 吃饭 了 ? 


rd (RE OXSEhighlB 


meser dp 


你 这 么 说 话 好 想 接 你 ! 


F 咱 俩 已 经 没什么 好 说 的 了 [拜拜 ] 


AO RRKT, EF! 


measer dp 


过 年 了 也 不 来 个 红包 表示 一 下 











yz ? 
204 
í 


F 祝 你 新 年 拿 压岁钱 拿 到 手软 


BERR lip 
BERR p 


F 祝 你 万 事 如 意 ! 家 庭 幸福 。 


和 
mamsen dp 


uw ”” 鸡 年 新 愿望 : 你 好 我 好 大 家 都 好 


BERR ip 


-4 
ji ^ SEDEM, 招 财 进 宝 ! 





uw 欢 欢喜 喜 过 大 年 








uu 
g «$7 Soa aH? 


^t 


图 21-1 


事实 上 ， 即 使 是 祝福 语 ，20 多 轮 对 话 的 多 样 性 也 是 令 人 咋舌 的 。 我 
还 符 试 过 其 他 产品 ， 重 复 问 多， 这 来 的 回答 往往 都 是 “谢谢 ， 你 也 是 ?或 
者 “也 祝 你 生日 快乐 > 这样 不 搭 边 的 回答 ， 并 且 在 三 四 轮 对 话 后 ， 机 器 人 


就 产生 重复 回答 了 。 


(3) 机 器 人 应 该 “个 性 表达 一 致 "。 它 的 年 龄 、 身 份 、 出 生地 等 基 
本 背景 信息 以 及 爱好 、 语 言 风 格 应 该 一 致 ， 能 让 人 把 它 想 象 成 一 个 典型 
的 人 。 例 如 ， 微 软 小 冰 关 于 性 别 的 回答 ， 在 多 轮 会 话 中 有 些 不 一 致 ， 但 
忆 体 上 个 性 是 一 致 的 ， 如 图 21-2 所 示 。 













BSF? 你 不 会 性 别 歧视 吧 ~ 


你 是 男生 还 是 女生 ? dp 


你 见 过 这 么 可 爱 的 男孩 子 嘛 ! ! 


Lodi: 


SB FATA DATE A , 


最 讨厌 别人 一 句 话 说 好 几 遍 了 的 








ea BASIN? 


€ jk 


Oc .我 选择 狗 带 !1 | 


manema dp 


F 问 这 种 问题 , 真 没 礼 狐 


Lone: 


F 我 是 萌 妹 纸 , BERANE] 


Re? ip 


汉子 有 叫 我 这 个 名 字 的 么 名 


F 别 说 我 了 , 不 如 说 说 你 吧 


5 你 都 知道 了 还 问 ? 


图 21-2 


21.3 ”机 器 翻译 的 评价 方法 





现在 机 器 翻译 方法 越 来 越 多 ， 那 么 如 何 评价 一 个 机 器 翻译 方法 的 好 
坏 呢 ? 





最 初 是 用 人 工 评测 的 方法 ， 在 得 到 翻译 结果 后 ， 请 专家 来 为 每 个 句 
子 的 翻译 结果 打分 ， 然 后 统计 平均 分 。 这 种 方法 存在 两 个 问题 ， 一 是 由 
两 批 专 家 打分 ， 即 使 一 批 专家 给 两 个 翻译 结果 打分 ， 也 无 法 保证 打分 尺 
度 一 致 ， 二 是 打分 周期 让 系统 迭代 的 周期 变 长 。 








下 面 我 们 藉 来 介绍 两 种 自动 评价 方法 。 
21.3.1 BLEU 

这 里 讲 的 BLEU (bilingual evaluation understudy) 方法 是 在 2002 年 
由 IBM 的 沃 森 研 究 中 心 提 出 的 。BLEU 是 Bilingual Evaluation Understudy 


的 英文 缩写 。 它 的 核心 思想 是 : 机 需 翻 译 语句 与 人 类 的 专业 翻译 语句 越 
接近 就 越 好 。 





这 个 目 动 评价 方法 与 人 工 评 价 高 度 相 关 。 我 们 把 正确 的 句子 叫 作 参 
考 译文 (reference) ， 也 称 正 确 句 子 (golden sentence) ， 测 试 的 句子 
叫 作 候选 译文 Ccandidate) ， 这 种 方法 适用 于 一 个 测试 语 料 中 具有 多 个 
参考 译文 的 情况 。 


我 们 比较 参考 译文 与 候选 译文 中 相同 的 片段 的 数量 ， 用 参考 译文 中 
连续 出 现 的 N 元 组 CN 个 单词 或 字 ) 与 候选 译文 中 出 现 的 N 元 组 进行 比 
较 ， 也 称 为 n 单位 片段 (n-gram) 比较 ， 计 算 完 全 匹配 的 N 元 组 的 个 数 








与 参考 译文 中 六 元 组 的 总 个 数 的 比例 ， 这 些 匹 配 片段 与 它们 在 文字 中 存 
在 的 位 置 无 关 。 匹 配 片 段 数 越 多 ， 则 竺 评价 的 候选 译文 的 质量 越 好 。 因 
此 ，BLEU 得 分 越 高 翻译 质量 越 好 。 


21.3.2 METEOR 

METEOR 是 另 一 个 用 来 评价 机 器 翻译 输出 质量 好 坏 的 方法 。 与 
BLEU 不 同 ， 它 不 仅 要 求 候 选 译文 在 整个 句子 上 ， 而 且 在 句子 的 分 段 级 
别 上 ， 也 要 与 参考 译文 的 更 接近 。 


我 们 来 看 维基 百科 上 的 一 个 例子 外 。METEOR 方 法 在 待 评价 字符 
串 和 参考 字符 串 之 间 创 建 一 个 平面 图 ， 如 图 21-3 所 示 。 


图 21-3 


在 待 评价 翻译 中 的 每 个 一 元 组 必须 映射 到 参考 翻译 中 的 1 个 或 0 个 一 
元 组 ， 如 果 有 两 个 平面 图 的 映射 数量 相同 〈 如 图 21-3 所 示 ) ， 那 么 选择 
映射 交叉 数目 较 少 的 那个 。 也 就 是 说 ， 图 21-3 左 侧 的 会 被 选中 。 
METEOR 得 分 越 高 质量 越 好 。 图 21-4 所 示 为 维基 百科 上 面 的 比较 结果 。 


Examples [edit] 


Reference the cat sat on the mat 


Hypothesis on the mat sat the cat 


Score: 0.5000 = Fmean: 1.0000 * (1 - Penalty: 0.5000) 

Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000) 
Penalty: 0.5000 = 0.5 * (Fragmentation: 1.0000 ^3) 

Fragmentation: 1.0000 = Chunks: 6.0000 / Matches: 6.0000 


Reference the cat sat on the mat 


Hypothesis the cat sat on the mat 


Score: 0.9977 = Fmean: 1.0000 * (1 - Penalty: 0.0023) 

Fmean: 1.0000 = 10 * Precision: 1.0000 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 1.0000) 
Penalty: 0.0023 = 0.5 * (Fragmentation: 0.1667 ^3) 

Fragmentation: 0.1667 = Chunks: 1.0000 / Matches: 6.0000 


Reference the cat sat on the mat 


Hypothesis the cat was sat on the mat 


Score: 0.9654 = Fmean: 0.9836 * (1 - Penalty: 0.0185) 

Fmean: 0.9836 = 10 * Precision: 0.8571 * Recall: 1.0000 / (Recall: 1.0000 + 9 * Precision: 0.8571) 
Penalty: 0.0185 = 0.5 * (Fragmentation: 0.3333 ^3) 

Fragmentation: 0.3333 = Chunks: 2.0000 / Matches: 6.0000 


图 21-4 


21.4 常用 的 通用 评价 指标 








对 于 深度 学 习 的 分 类 程序 来 说 ， 和 名 用 的 评价 指标 有 准确 率 、 召 回 
A. Bs ROC、AUC、AP 和 mAP 等 。 准 确 率 、 召 回 率 和 EF 值 过 于 简 
单 ， 这 里 就 不 歼 述 ， 下 面 主要 讲 ROC、AUC、AP 和 mAP。 


21.4. ROCAIAUC 


ROC (Receiver Operating Characteristic， 受 试 者 工作 特征 曲线 ) 和 
AUC (Area Under roc Curve， 曲 线 下 面积 ) 是 评价 分 类 器 的 指标 。 图 
21-5 展 示 的 是 摘自 维基 百科 四 的 ROC 曲 线 示例 。 如 图 21-5 所 示 ，ROC 曲 
线 的 横 坐 标 为 FPR (False positive rate) ， 纵 坐标 为 TPR (True positive 
rate) 。ROC 曲 线 越 接近 左上 角 ， 分 类 器 的 性 能 就 越 好 。 





图 21-5 


AUC 是 ROC 曲 线 下 方 的 那 部 分 面积 的 大 小 。 通 凋 ，ROC 曲 线 一 般 
都 处 于 y = x 这 条 直线 的 上 方 ， 因 此 AUC 的 值 介 于 0.5 和 1.0 之 间 ，AUC 的 
值 越 大 表示 性 能 越 好 。 有 一 些 专门 的 AUC 计 算 工 具 ， 参 见 
http://mark.goadrich. com/programs/AUC/ 。 


21.4. AP 和 mAP 


在 计算 机 视觉 中 ， 尤 其 在 分 类 问题 中 ，AP Caverage precision, `F 
均 准 确 性 ) 是 模型 分 类 能 力 的 重要 指标 。 如 果 单 纯 用 P (precision rate, 
准确 率 ) 和 R (recall rate, BER) 来 评价 ， 组 成 的 PR 曲线 有 一 个 趋势 





就 是 ， 召 回 率 越 高 准确 率 越 低 。AP 指 这 个 曲线 下 的 面积 ， 等 于 对 召回 
率 做 积分 ， 而 mAP (mean average precision， 平 均 准 确 性 平均 ) 也 是 为 
了 解决 准确 率 、 召 回 率 、F 值 的 单 点 值 局 限 性 的 ， 它 对 所 有 类 别 分 别 取 
平均 ， 把 每 一 个 类 当 作 一 次 二 分 类 任务 。 目 前 的 图 像 分 类 论文 基本 都 是 
用 mAP 的 高 低 作 为 分 类 好 坏 的 标准 。 








21.5 ”小 结 


本 章 介 绍 了 机 器 学 习 的 评测 体系 。 包 括 “ 实 战 篇 "中 人 脸 识 别 的 性 能 
旨 标 、 聊 天 机 器 人 的 性 能 指标 ， 以 及 机 器 翻译 的 评价 方法 。 另 外 ， 还 介 
绍 了 几 个 常用 的 通用 评价 指标 ， 即 ROC、AUC、AP 和 mAP。 但 是 ， 对 
一 个 有 具体 的 行业 应 用 来 说 ， 性 能 指标 和 评价 方法 不 是 一 成 不 变 的 ， 随 着 
模型 准确 率 和 召回 率 的 提高 ， 对 模型 的 评价 维度 也 会 更 全 面 ， 读 者 可 以 
多 多 关注 相关 科研 成 果 。 








[1] 这 段 内 容 参考 http:/sanwen.neta/hkhptbo.html ， 发 表 在 《中 国人 工 
智能 学 会 通讯 》2016 年 第 6 卷 第 1 期 上 。 


[2] https://en.wikipedia.org/wiki/METEOR#AIgorithm 


[3] 


https://en.wikipedia.org/wiki/Receiver operating characteristic£/media/Fil: 


附录 A 公开 数据 集 





为 了 方便 读者 进行 更 多 实践 ， 本 附录 给 读者 介绍 一 些 可 用 的 公开 数 
据 集 。 


AA 图 片 数据 集 


ImageNet |) 是 目前 世界 上 最 大 的 图 像 识 别 数据 集 ， 包 含 14197122 
张 图 像 ， 由 斯 坦 福 大 学 视觉 实验 室 终身 教授 李 飞 飞 创立 。 每 年 的 
ImageNet 大 赛 是 国际 上 计算 机 视 党 的 顶级 赛事 。 


COCO 7! 是 微软 创立 的 用 于 分 定 和 加 字幕 标注 的 数据 集 。 其 主要 特 
征 如 下 : 


目标 分 割 ; 

通过 上 下 文 进行 识别 ; 

每 个 图 像 包 含 多 个 目标 对 象 ; 
超过 300000 个 图 像 ; 

超过 2000000 个 实例 ; 
80 种 对 象 ; 

每 个 图 像 包含 5 个 字幕 ; 
包含 100000 个 人 的 关键 点 。 





CIFAR P! (Canada Institude For Advanced Research) 是 由 加 拿 大 先 
进 技术 研究 院 收 集 的 8 000 万 小 图 片 的 数据 集 。CIFAR 包 含 CIFAR-10 和 
CIFAR-100 两 个 数据 集 。Cifar-10 由 60 000 张 32x32 的 RGB 彩 色 图 片 构 
成 ， 共 10 个 类 别 ，50 000 张 训练 ，10 000 张 测试 (交叉 验证 ) . CIFAR- 
100H160 000 张 图 像 构成 ， 包 含 100 个 类 别 ， 每 个 类 别 600 张 图 像 ， 其 中 
500 张 用 于 训练 ，100 张 用 于 测试 。 其 中 这 100 个 类 别 又 组 成 了 20 个 大 的 
类 别 ， 每 个 图 像 包 含 小 类 别 和 大 类 别 两 个 标记 。 


A2 人 脸 数 据 集 


AFLW |4! (Annotated Facial Landmarks in the Wild) 提供 从 Flickr 收 
集 的 融 标 注 的 面部 图 像 的 大 规模 集合 ， 包 括 了 各 种 姿态 、 表 情 、 光 照 、 
种 族 、 性 别 、 年 龄 等 因素 影响 的 图 片 ， 大 约 包 括 25 000 万 手工 标注 的 人 
脸 图 片 ， 每 个 人 脸 被 标注 了 21 个 特征 点 ， 图 像 大 多 数 是 彩色 的 ，59% 为 
女性 ，41% 为 男性 。 该 数据 集 非常 适合 用 于 人 脸 识 别 、 人 脸 检测 、 人 脸 
对 齐 等 方面 的 研究 。 


Labeled Faces in the Wild Home |? (LFW) 数据 集 是 由 美国 马 萨 诸 
塞 大 学 阿 姆 斯 特 分 校 计算 机 视觉 实验 室 整 理 而 成 的 。 它 包含 13 233 张 图 
请 ， 共 5 749 个 人 ， 其 中 4 096 个 人 只 有 一 张 图 片 ，1 680 个 人 的 图 片 多 于 
一 张 ， 主 要 用 于 研究 非 受 限 情形 下 的 人 脸 识 别 问 题 ， 因 为 人 脸 的 外 形 很 
不 稳定 ， 会 受到 面部 表情 、 观 察 角 度 、 光 照 条 件 、 室 内 室外 、 遮 盖 物 
CELER. ARH. WES) 、 年 龄 等 方面 的 影响 。 现 在 已 经 成 为 学 术 界 评 
价 识别 性 能 的 标准 (benchmark) 。 


GENKI ©! 数据 集 是 由 加 利 福 尼 亚 大 学 收集 的 。 该 数据 集 包含 
GENKI-R2009a、GENKI-4K 和 GENKI-SZSL 三 个 部 分 ， 其 中 GENKI- 
R2009a 包 含 11 159 个 图 片 ，GENKI-4K 包 含 4 000 个 图 像 ， 分 为 “ 笑 ? 和 “不 
笑 " 两 类 ， 每 个 图 片 的 人 脸 的 姿势 、 头 的 转动 都 标注 了 角度 ， 专 门 用 于 
做 笑脸 识别 。GENKI-SZSL 包 含 3 500 个 图 像 ， 这 些 图 片 包括 广泛 的 背 
景 、 光 照 条 件 、 地 理 位 置 、 个 人 身份 和 种 族 等 。 


VGG Face [数据 集 包 含 了 2 622 个 不 同 的 人 ， 每 个 人 包含 1 000 张 图 


请， 是 一 个 训练 人 脸 识 别 的 大 的 数据 集 。 


大 规模 名 人 人 脸 标 注 数 据 集 CelebA [8] (Large-scale CelebFaces 
Attributes) 包含 10 177 个 名 人 ，202 599 张 名 人 图 像 ， 每 张 图 像 都 有 40 个 
属性 标注 。 


A.3 视频 数据 集 


YouTube-8M P1 数据 集 是 一 个 不 错 的 视频 数据 集 ， 包 含 了 800 万 个 
YouTube 视 频 的 URL， 代 表 50 万 小 时 长 度 的 视频 ， 并 带 有 视频 标注 。 


AA 问答 数据 集 


MS MARCO !!?] (Microsoft MAchine Reading Comprehension) 是 
微软 发 布 的 一 个 包含 10 万 个 问题 和 答案 的 数据 集 ， 研 究 者 可 以 使 用 这 
个 数据 集 来 创造 能 够 像 人 类 一 样 阅读 和 回答 问题 的 系统 。 这 个 数据 集 是 
基于 匿名 的 真实 数据 构建 的 。 





康 奈 尔 大 学 电影 对 白 数 据 集 UM 有 超过 600 部 好 莱 坞 电影 的 对 白 。 


A5 目 动 驾驶 数据 集 


法 国 国家 信息 与 自动 化 研究 所 行人 数据 集 {1?] (INRIA Person 
Dataset) ， 这 个 数据 集 是 作为 图 像 和 视频 中 直立 人 检测 的 研究 工作 的 一 
部 分 收集 的 ， 里 面 的 图 片 分 为 两 种 格式 : 一 种 是 具有 对 应 注释 文件 的 原 
始 图 像 ， 另 一 种 是 具有 原始 负 像 的 经 过 正规 化 处 理 后 的 64x128 像 素 正 
像 。 图 片 分 为 只 有 车 、 只 有 人 、 有 车 有 人 和 无 车 无 人 4 个 类 别 。 


KITTI "3! (Karlsruhe Institute of Technology and Toyota 
Technological Institute) 是 一 个 车 辆 数据 集 ， 包 含 7 481 个 训练 图 片 和 7 
518 个 测试 图 片 。 访 数据 集中 标注 了 车辆 的 类 型 、 是 否 截 断 、 遮 挡 情 
况 、 角 度 值 、 二 维和 三 维 框 、 位 置 、 旋 转角 度 等 重要 的 信息 。 





A.6 年龄、 性别 数据 集 


Adience 数 据 集 44 来 源 为 Flickr 相 册 ， 由 用 户 使 用 iPhone5 或 者 其 他 
智能 手机 设备 拍摄 ， 图 片 包含 2 284 个 类 别 和 26 580 张 图 片 ， 并 且 保 留 了 
光照 、 姿 势 、 噪 声 的 影响 ， 是 在 做 性 别 、 年 龄 估计 和 人 脸 检 测 中 运用 算 
法 时 进行 基准 测试 的 一 个 数据 集 。 





除 以 上 这 些 数据 集 外 ， 还 有 非 第 多 的 公开 数据 集 ， 读 者 可 以 自己 用 
搜索 引擎 去 研究 和 探索 。 





[1] http:/www.image-net.org/ 

[2] http:/mscoco.org/ 

[3] https://www.cifar.ca/ 

[4] http:/lrs.icg.tugraz.at/research/aflw/ 

[5] http://vis-www.cs.umass.edu/lfw/ 

[6] http:/mplab.ucsd.edu 

[7] http://www.robots.ox.ac.uk/~vgg/data/vgg_face/ 
[8] http:/mmlab.ie.cuhk.edu.hk/projects/CelebA.html 


[9] https://research.google.com/youtube8m/ 


[10]  http://www.msmarco.org 


[11] https://www.cs.cormell.edu/~cristian/Cornell_Movie- 


Dialogs Corpus.html 
[12]  http://pascal.inrialpes.fr/data/human/ 
[13]  http://www.cvlibs.net/datasets/kitti/ 


[14]  http://www.openu.ac.il/home/hassner/Adience/data.html 





附录 B 项 目 管 理 经 验 小 谈 





终于 到 本 书 的 最 后 部 分 了， 相信 通过 前 面 的 学 习 你 已 经 对 
TensorFlow 的 基础 知识 和 实战 了 解 得 很 全 面 了 ， 那 就 快 快 动手 结合 目 己 
的 业务 实现 一 个 Demo 吧 。 作 为 一 个 技术 人 员 ， 你 也 不 可 避免 地 会 遇 到 
只 场 上 的 管理 和 流程 问题 ， 而 且 随 着 工作 年 限 的 提高 ， 你 可 能 早晚 都 要 
做 一 个 纯 管 理 者 或 者 技术 管理 者 ， 或 者 是 一 个 被 别人 经 党 请 教 撤 术 方案 
的 人 。 本 重 我 就 说 一 些 在 工作 中 的 项 目 管理 经 验 。 





B.1 管理 的 激进 与 保守 问题 


技术 管理 人 员 在 设计 技术 好 构 及 人 员 管 理 的 时 候 ， 往 往 会 有 两 种 风 
格 一 一 激进 派 和 保守 派 。 下 面 我 来 说 说 这 两 种 风格 的 特点 ， 以 及 作为 技 
术 管 理 人 员 ， 如 何 针对 具体 的 项 目 ， 用 不 同 的 风格 来 扬长 避 短 。 


B.1.1 BoE 


这 种 风格 表现 在 : 项 目 上 人 退 求 快速 完成 ， 不 太 注重 项 目 持久 性 。 这 
种 风格 的 优点 是 ， 一 个 新 点 子 往往 能 迅速 上 线 ， 但 次 端 更 多 。 


这 样 的 管理 者 开头 和 分 配 任务 的 方式 往往 是 一 样 的 : 


“小 A， 小 B， 小 C， 快 快 快 ， 在 这 儿 开 个 会 我们 要 做 一 个 xxx， 就 
是 实现 个 xxx， 小 A， 你 做 A 部 分 ， 小 B 你 做 B 部 分 ， 小 C 你 做 C 部 分 。 我 
们 这 个 项 目 ，2 周 ， 开 发 完 ， 交 给 测试 。 测 试 一 两 天 就 应 该 能 测 完 。10 
月 底 上 线 。” 


然后 ， 小 A、 小 B、 小 C 回 到 工 位 ， 开 始 火 急 火炉 地 开发 。 不 ， 开 始 
火 急 火 糯 地 研究 需求 ， 设 计 系统 方案 ， 最 后 开始 编码 。 


然后 ， 真 正 到 2 周 了 ， 其 实 也 开发 完了 ， 交 付 给 测试 后 ， 会 出 现 很 
多 问题 ， 然 后 他 们 分 别 拼命 改 。 终 于 在 最 后 期 限 -10 月 底 上 线 了 ， 可 
是 ， 给 用 户 一 用 ， 发 现 好 多 问题 ， 紧 急 修复 ， 紧 急 ， 紧 急 ， 身 后 一 背 虚 
if. 








XF RFEA. Hente Ee? 





首先 ， 因 为 留 给 基层 开发 人 员 的 时 间 很 短 ， 所 以 开发 人 员 在 开发 时 
无 法 深入 地 对 系统 架构 有 整体 的 思考 ， 并 且 因 为 时 间 紧 迫 ， 开 发 人 员 都 
是 “ 吃 技术 老 本 ?来 完成 这 个 项 目 ， 没 有 从 项 目 中 学 到 新 东西 ， 也 没有 获 
得 太 大 的 成 长 。 比 如 ， 之 所 以 让 小 A 负 责 A， 小 B 负 责 B， 小 C 负 责 C， 是 
因为 这 部 分 是 他 们 各 自 的 擅长 领域 ， 开 发 人 员 在 技术 上 做 的 是 “重复 的 
机 械 性 的 > 工作。 











其 次 ， 上 线 后 会 有 各 种 诡异 问题 。 这 是 因为 ， 开 发 时 对 所 有 的 逻辑 
没有 想 全 ， 项 目 周期 紧张 ， 测 试 人 员 也 是 在 测试 当天 前 后 才 了 解 到 这 个 
项 目 ， 对 项 目的 整体 功能 把 握 不 透彻 ， 就 完全 依赖 开 肥 人员 的 描述 进行 
测试 。 一 些 异 第 状态 以 及 跟 之 前 系统 可 能 有 的 交互 的 影响 未 考虑 到 ， 导 
致 很 多 不 易 察觉 的 错误 上 线 后 才 发 现 。 这 时 ， 留 给 开发 人 员 的 活 儿 就 是 
在 线 上 定位 和 修改 bug。 因 为 这 种 问题 往往 是 没有 很 明显 复 现 条 件 的 ， 
所 以 定位 问题 的 难度 很 大 。 这 时 开发 人 员 就 要 重新 梳理 一 思 目 己 的 开发 
逻辑 ， 从 中 发 现 可 能 的 问题 。 











再 次 ， 由 于 时 间 紧 张 ， 开 发 人 员 往 往 不 写 * 设 计 文 档 ”， 这 对 后 期 接 
手 人 员 的 工作 带 来 很 大 困难 。 万 一 开发 人 员 变 动 或 者 离职 ， 接 手 人 员 有 
时 就 得 重头 < 哺 ” 代 码 ， 或 者 目 己 另 写 一 套 代 码 维护 。 








我 称 这 种 项 目 管理 方式 叫 作 “ 走 2 步 ， 退 1 步 半 ”。 因 此 ， 开 发 的 时 
候 ， 好 像 很 迅速 ， 一 个 系统 可 能 2 周 左右 就 开发 完成 ， 然 后 上 线 ， 管 理 
人 员 和 一 线 开 及 人 员 都 篆 大 欢喜 ， 发 邮件 抄 送 全 组 祝 商 。 可 是 ， 后 续 发 
现 ， 问 题 维 护 成 本 也 很 高 ， 大 概 也 需要 1 周 半 的 时 间 去 维护 系统 的 遗留 
问题 ， 这 些 遗 留 问题 被 测试 人 员 或 者 用 户 发 现 后 ， 往 往 也 需要 一 定 的 沟 
通 成 本 来 描述 和 定位 。 最 重要 的 是 ， 问 题 发 生 在 线 上 后 ， 影 响 了 公司 的 








品牌 和 声誉 。 





这 种 开 友 模式 对 “ 熟 手 ”工程 师 来 说 可 能 成 长 不 大 ， 而 对 “ 生 手 ”工程 
师 来 次 ， 这 种 模式 会 倒 逼 他 在 茶 个 时 间 点 完成 一 项 任务 ， 在 技术 应 用 上 
学 习 和 成 长 是 很 快 的 。 但 即使 “ 熟 手 ” 也 会 出 现 上 述 问 题 ， 是 因为 技术 本 
领 的 熟练 ， 不 足以 应 对 开发 这 个 系统 时 需要 的 团队 配合 以 及 考虑 系统 上 
下 游 的 关系 的 问题 ， 因 为 你 做 的 很 多 设计 ， 可 能 和 你 搭档 的 工程 师 并 不 
知道 ， 或 者 在 整个 系统 中 并 不 必要 。 因 此 ， 有 的 时 候 你 不 能 走 得 太 快 ， 
否则 会 遗失 很 多 东西 ， 到 时 候 还 得 补 回 来 。 











B.1.2 (RAF UK 


TEST UAT SCEE IR IBGE J LF FEE AAI oP AS EB T OTROS Ce 
守 派 项 目 管理 的 开发 流程 。 例 如 ， 产 品 经 理想 给 产品 新 加 一 个 功能 ， 他 
可 能 面临 如 下 步骤 。 


(1) 直接 找到 对 应 的 技术 人 员 去 沟通 。 





(2) 技术 人 员 同 意 添加 ， 并 有 能 够 解决 问题 的 拉 术 方案 。 但 是 ， 
不 要 以 为 技术 人 员 就 可 以 直接 干 活 写 代码 了 ， 因 为 技术 人 员 的 上 级 还 不 
知道 这 件 事情 ， 所 以 这 个 技术 人 员 还 没有 相应 的 时 间 资 源 《〈 即 排 期) 去 
做 。 因此， 需要 再 疝 技 术 主 省 确认 这 个 功能 是 否 要 添加 ， 以 及 主管 安排 
这 个 技术 人 员 的 工作 排 期 。 随 后 ， 需 要 产品 经 理发 出 邮件 ， 抄 送 对 应 的 
技术 人 员 和 双方 主管 ， 确 认 沟通 内 容 ， 这 样 ， 沟 通 圆满 完成 。 








(3) 知 技 术 人 员 认 为 这 个 功能 没有 必要 ， 或 者 添加 这 个 功能 的 技 
术 复 杂 度 很 高 。 他 们 就 需要 上 报到 双方 经 理 处 进行 协商 ， 而 协商 的 结果 
则 要 视 问 题 的 复杂 度 及 各 目的 KPI 来 定 。 有 可 能 问题 太 复杂 ， 这 个 功能 











就 特 时 被 搁置 了 ， 也 有 可 能 产品 和 技术 虽然 都 负 贡 一 个 项 目 ， 但 是 两 边 
的 KPI 导 回 可 能 不 一 致 ， 这 也 可 能 会 导致 新 功能 被 搁置 。 





而 到 了 真正 开始 项 目 开发 的 时 候 ， 保 守 泪 一般 会 有 1 一 2 个 工程 师 参 
与 ， 详 细 写 出 “设计 文档 ”， 和 项 目 经 理 一 起 开会 ， 对 设计 文档 的 实现 点 
逐个 讨论 ， 逐 个 达成 一 致 ， 然 后 确保 在 考虑 上 没有 牙 忽 和 遗漏 ， 才 开始 
写 代 码 。 


B.1.3 ”保守 派 和 激进 派 的 区 别 


保守 派 和 激进 派 最 大 的 区 别 在 于 ， 保 守 派 在 向 前 推进 项 目的 每 一 
步 ， 都 倾 癌 以 “邮件 ”的 方式 传达 给 合作 方 ， 包 括 每 一 次 沟通 的 内 容 及 沟 
通 的 结论 ， 并 且 倾 癌 于 在 开发 前 就 把 完整 的 设计 方案 全 部 整理 好 ， 细 化 
到 任何 一 个 步 又， 并 且 让 参与 的 工程 师 都 知晓 。 而 激进 派 则 不 同 ， 他 比 
较 倾 癌 于 口头 和 对 方 讨 论 和 沟通 ， 并 立刻 投入 功能 实现 中 ， 在 最 后 上 线 
时 发 邮件 庆贺 ， 并 且 倾 问 于 每 个 人 独立 负责 目 己 的 那 一 部 分 ， 需 要 部 分 
之 间 衔 接 时 ， 才 去 两 人 私下 讨论 ， 因 为 不 正式 ， 所 以 常 第 也 考虑 不 到 对 
整个 系统 或 者 其 他 工程 师 手 尖 工 作 的 影响 。 





这 两 种 管理 方式 我 们 在 同一 家 公司 的 不 同 项 目 管理 者 身上 经 癌 能 看 
到 。 但 本 质 上 ， 这 两 种 方式 都 一 定 程度 上 损失 了 公司 效率 。 其 实 ， 和 人 微 
理想 一 些 的 方式 应 该 是 下 面 这 样 的 。 











技术 经 理 在 平时 的 工作 中 ， 就 对 目 己 负责 的 产品 有 次 刻 的 理解 ， 能 
够 主动 提出 需要 改进 的 功能 ， 并 且 对 系统 架构 有 深刻 的 了 解 ， 能 够 知道 
目 己 目前 维护 的 系统 的 优势 和 不 足 在 哪里 ， 平 时 就 督促 一 线 开 及 人 员 做 
好 系统 优化 。 在 面 对 新 需求 时 ， 能 从 产品 角度 给 出 新 需求 的 建议 ， 能 从 





技术 角度 给 出 技术 选 型 和 实现 方案 ， 并 能 拉 上 测试 人 员 及 早 接 入 了 解 项 
目 。 这 样 ， 就 能 做 到 对 这 个 项 目 有 全 局 的 把 控 ， 对 开发 节 委 就 有 合理 的 
排 期 ， 选 择 适当 的 团队 成 员 进 行 开 及 ， 并 且 上 线 之 后 “ 坑 ” 也 很 少 。 同 
时 ， 能 够 分 辨 出 哪些 项 目 是 可 以 很 快 完 成 的 ， 哪 些 项 目 是 需要 一 起 讨论 
设计 方案 的 ， 做 项 目的 步骤 中 出 现 问题 ， 及 时 与 开发 人 员 沟 通 ， 而 不 是 
总 看 着 开发 人 员 ， 让 他 们 自己 沟通 解决 。 

















这 就 对 拉 术 管理 人 员 的 要 求 很 蜗 ， 需 要 技术 管理 人 员 不 断 地 钻研 业 
务 和 团队 的 技术 。“ 激 进 型 * 和 “保守 型 * 的 管理 风格 相互 融合 ， 团 队 的 领 
村 者 应 该 兼 具 这 两 种 风格 ， 这 对 技术 方案 的 选择 和 规划 开 友 计划 能 够 提 
供 很 好 的 合理 保证 。 因 此 ， 实 际 上 ， 技 术 管 理 者 的 门槛 应 该 是 很 高 的 ， 
他 除了 技术 过 硬 外 ， 还 需要 足够 了 解 业务 本 质 ， 足 够 了 解 手头 的 撤 术 架 
构 的 重点 和 难 点 ， 知 道 将 来 的 部 车 方向 ， 和 擎 握 每 一 个 技术 人 员 的 技术 本 
领 以 及 期 望 的 发 展 方向 。 














另外 ， 谈 谈 大 公司 和 创业 公司 的 区 别 ， 他 们 最 大 的 区 别 就 在 于 沟通 
的 成 本 ， 以 及 由 此 决定 的 员工 工作 时 的 心态 和 状态 。 











对 于 BAT 之 类 的 大 公司 ， 犯 错误 的 成 本 是 很 高 的 。 因 此 ， 在 开发 过 
程 中 ， 沟 通 的 成 本 非常 高 。 大 公司 的 流程 管理 相对 比较 规范 和 严格 ， 有 
些 是 以 KPI 为 导 同 的 ， 团 队 里 的 技术 、 产 品 、 运 营 都 有 专门 的 负责 人 ， 
他 们 都 有 自己 独立 的 KPI， 即 使 这 些 不 同 角色 的 人 都 是 负责 同一 个 项 目 
也 是 如 此 。 因 此 ， 在 做 项 目 时 ， 一 个 很 小 的 改动 ， 或 者 一 次 很 小 的 沟 
通 ， 甚 至 是 一 次 很 平常 的 沟通 的 结论 ， 大 都 需要 发 出 邮件 让 双方 的 领导 
知情 ， 很 多 效率 会 损失 在 这 里 。 因 此 ， 这 种 管理 风格 多 是 “保守 ?的 。 

















而 创业 公司 一 般 是 ， 想 到 一 个 好 点 子 就 立即 安排 去 实现 ， 或 者 过 到 
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管理 方式 的 不 同事 关公 司 ， 也 事 关 管理 者 ， 也 有 一 些 公 司 在 这 个 层 
面 做 得 很 好 ， 他 们 的 管理 者 在 决策 上 比较 有 经 验 ， 既 不 盲目 奶 调 ， 也 不 
大 路 步 冒 进 ， 他 们 的 技术 管理 人 员 素 担 了 很 大 的 决策 压力 ， 因 此 非常 有 


胆识 。 


有 些 年 轻 人 以 在 大 公司 工作 为 骄傲 ， 也 有 些 职场 新 手 痰 葵 和 敬仰 大 
公司 。 这 里 ， 我 借用 乔布斯 说 的 一 段 话 来 与 读者 共 损 : “公司 规模 扩大 
之 后 ， 就 会 变 得 因循守旧 ， 员 工 们 觉得 只 要 遵守 流程 ， 就 能 奇迹 般 地 继 
续 成 功 ， 于 是 开始 推行 严格 的 流程 制度 ， 很 快 员工 就 把 遵守 流程 和 纪律 
当 作 工作 本 映 。” 因 此 ， 无 论 在 哪里 ， 我 们 都 应 该 实现 的 是 在 工作 目标 
本 身上 的 突破 ， 而 不 是 拘泥 于 流程 本 里。 











B.2 公司 效率 损失 及 规避 


很 多 情况 下 ， 公 司 效率 往往 损失 在 细微 末节 的 小 事 上 。 比 如 ， 茶 个 
技术 人 员 的 代码 没有 通过 运行 就 提交 了， 不 慎 被 发 布 到 线 上 ， 然 后 为 这 
件 事 需要 耽误 好 几 天 的 时 间 来 修复 和 后 续 案例 分 析 ; 再 如 ， 同 事 之 间 对 
同一 个 文件 的 代码 进行 修改 后 ， 合 并 后 没有 正确 解决 冲突 。 这 种 错误 虽 
然 很 小 ， 但 是 也 极 大 地 影响 了 团队 的 工作 效率 ， 往 往 要 牵扯 到 好 几 个 人 
去 处 理 。 这 种 错误 往往 发 生 在 比较 “激进 ”的 团队 中 ， 这 时 ， 一 些 开 发 流 
程 对 出 现 这 些 错误 残 有 了 规避 的 作用 。 











(1) 代码 需要 经 过 代码 评审 (code review, CR) 。 代 码 评审 的 重 
要 性 不 言 自明 ， 对 于 被 评审 者 ， 他 可 以 学 到 很 多 现成 的 编码 经 验 ; 而 对 
于 评审 人 员 ， 他 可 以 看 看 新 手 有 哪些 新 的 设计 思路 ， 给 自己 以 启发 ， 并 
且 能 知道 系统 中 常 犯 的 错误 和 问题 ， 对 高 屋 建 伺 地 理解 系统 非常 重要 。 
但 是 ， 现 在 代码 评审 往往 被 很 多 公司 忽视 。 它 还 是 一 道 心里 防线 ， 能 够 
防止 未 运行 通过 的 代码 被 提交 。 





(2) 即使 是 简单 的 一 次 代码 上 线 ， 也 需要 测试 人 员 和 运 维 人 员 去 
验证 。 很 多 情况 下 ， 开 发 人 员 认 为 修改 量 很 小 ， 影 响 范围 有 限 ， 因 此 下 
接 上 线 了 ， 这 往往 会 导致 问题 出 现 ， 在 我 周围 也 昕 说 过 很 多 例 。 因 此 ， 
无 论 修 改 范围 大 小 ， 都 需要 经 过 验证 的 流程 。 





(3) 慎重 使 用 root 权 限 。 运 维 人 员 往 往 有 很 多 机 器 的 最 高 权限 ， 但 
人 毕竟 不 是 机 器 ， 有 累 、 困 、 饿 、 烦 的 时 候 ， 有 很 多 误 操 作 就 来 源 于 这 
种 情况 下 的 “rm -r。 因 此 ， 一 些 解决 经 验 就 是 : 重新 编译 或 者 目 己 实 








现 rm 命 令 的 源 代码 ， 进 入 重要 目录 后 ， 执 行 这 个 操作 时 ， 需 要 输入 密 
码 ， 这 个 密码 可 以 是 “当天 的 0 点 时 间 惟 加 上 当天 的 星期 序号 的 md5 
值 ? 等 。 严 格 执行 根据 运 维 级 别 给 予 操 作 权 限 ， 对 应 重要 目录 的 权限 ， 
即使 很 高 级 别 的 人 ， 也 不 能 随意 切换 到 root 用 户 ， 执 行 rm -rf 操作 。 








B.3 小 结 


本 章 主 要 总 结 了 我 在 学 习 项 目 管 理 及 项 目 开发 中 的 一 些 经 验 ， 根 据 
我 在 创业 公司 和 大 公司 的 一 些 观察 ， 对 公司 整体 效率 的 提升 和 快速 稳步 
发 展 提出 了 一 些 建议 ， 也 从 技术 角度 对 减少 公司 效率 损失 提供 了 一 些 建 
议 ， 供 有 志 于 成 为 技术 管理 人 员 的 读者 参考 借鉴 。 


欢迎 来 到 异步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn ) 是 人 民 邮 电 出 版 社 旗 下 IT 专 业 图 书 旗 
舰 社 区 ， 于 2015 年 8 月 上 线 运营 。 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 开 专 业 优 质 出 版 资源 和 编 
辑 策 划 团 队 ， 打 造 传统 出 版 与 电子 出 版 和 目 出 版 结合 、 纸 质 书 与 电子 书 
结合 、 传 统 印 刷 与 POD 按 需 印 刷 结合 的 出 版 平 合 ， 提 供 最 新 技术 资讯 ， 
为 作者 和 读者 打造 交流 互动 的 平台 。 
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免费 电子 书 


Free eBook 





我 要 写 书 


Write for Us 











python 机 器 学 习 一 一 预 MOAI: SERRE NEAIMBRARA MHNT: RE 
测 分 析 塘 心血 法 与 贝 叶 斯 推 斯 的 Python 学习 法 近期 活动 


ALD BEB AIT A? 
购买 图 书 


我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语言 、Web 搁 术 、 数 据 科 
学 等 领域 有 众多 经 典 畅销 图 书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 
400 多 种 ， 部 分 新 书 实 现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 定期 发 布 新 
书 书 讯 。 
下 载 资源 

社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 





另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 
可 以 免费 下 载 。 


与 作 译 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 他 们 ， 咨 询 技 术 问 
题 ， 可 以 阅读 不 断 更 新 的 技术 文章 ， 听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 
的 故事 ;， 还 可 以 参与 社区 的 作者 访谈 栏目 ， 疝 您 天 注 的 作者 提出 末 访 题 
Ho 








灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直 接 从 人 民 
邮电 出 版 社 书 库 发 贷 ， 电 子 书 提供 多 种 阅读 格式 。 

对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ， 用 户 可 以 第 一 时 间 
买 到 心仪 的 新 书 。 


用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 分 =1 元 ， 购 买 图 书 
时 ， 在 | mum 里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 


PERE 


购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 
时 输入 “57AWG”， 然 后 点 击 “ 使 用 优惠 码 ” 即 可 享受 电子 书 8 折 优 惠 ( 本 优惠 券 只 可 使 用 一 
次 ) 。 






































纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 价 格 优惠 ， 一 次 购 
买 ， 多 种 阅读 选择 。 
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E EX BT UMBUT A? 
提交 勘误 
您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 
积分 。 热 心 勘误 的 读者 还 有 机 会 参与 书稿 的 审 校 和 翻译 工作 。 
写作 


社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 
身手 ， 在 社区 里 分 享 您 的 技术 心得 和 读书 体会 ， 更 可 以 体验 上 自 出 版 的 乐 
趣 ， 轻 松 实现 出 版 的 梦想 。 











如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 至 特 
色 服 务 。 


会 议 活 动 早 知 道 


您 可 以 掌握 1T 圈 的 技术 会 议 资讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 


AR 


扫描 任意 二 维 码 都 能 找到 我 们 : 


Papi 





异步 社区 








微 信 订 阅 号 








官方 微 博 





QQ: 436746675 


社区 网 址 : www.epubit.com.cn 
官方 微 信 : 异步 社区 
官方 微 博 : @ 人 邮 异 步 社区 ，@ 人 民 邮 电 出 版 社 -信息 技术 分 社 


投稿 改 咨询 : contact@epubit.com.cn 


